|
新聞詳情
為什么在2025年,大廠必須下注世界模型?發表時間:2025-09-04 15:04
作者|西梅汁 編輯|星奈 媒體|AI大模型工場
過去,AI 行業的關注點幾乎都集中在大語言模型上:從 ChatGPT 引爆全球,到國內外大廠紛紛追趕,參數規模、功能體驗不斷拉高。但隨著同質化加劇,行業開始面臨一個問題,語言模型之外,下一個真正高門檻、能構筑護城河的方向在哪里? 近期的答案似乎逐漸浮出水面:世界模型。在短短一個月里,谷歌 DeepMind、昆侖萬維、騰訊先后亮出最新成果,把“理解語言”拓展為“理解世界”。這種同步動作背后,既是技術演進的自然結果,也是產業競爭的戰略選擇。
01 谷歌、昆侖萬維與騰訊的“世界模型月” “世界模型”領域正變得熱鬧起來。 8 月 5 日,谷歌 DeepMind 發布了第三代世界模型 Genie 3,這是首個支持實時交互的世界模型。用戶只需要輸入文本提示,Genie 3 就能以每秒 24 幀的速度,實時生成一個可以自由探索的動態世界。比如輸入“一片海邊的黃昏,有小船和海鷗,可以走動觀看。”
此前的世界模型,雖然也能生成場景,但大多是靜態的,或者只能支持短時間的交互。Genie 3 則將單次交互時長從幾十秒延長到數分鐘,并加入了 “可提示的世界事件” 和 “視覺記憶” 等關鍵特性。用戶在場景里留下的痕跡,比如涂鴉、移動的家具等,都會被保留下來,極大提升了真實感。 在發布 Genie 3 的同時,在發布 Genie 3 的同時,谷歌強調了其在機器人訓練、自動駕駛仿真等領域的潛在價值,并指出這類世界模型可為 AI 智能體提供虛擬環境進行學習和交互,谷歌希望借此構建一個大規模的智能體訓練平臺。 僅僅一周之后,昆侖萬維也推出了自己的世界模型 Matrix Game 2.0。與 Genie 3 相比,Matrix Game 2.0 的最大亮點在于全面開源,開發者可以直接將其集成到自己的項目中。昆侖萬維稱,這是業內首個在通用場景中實現實時長序列交互生成的開源世界模型。
Matrix Game 2.0 的性能也十分出色,能夠以 25FPS 的速度,在多種復雜場景中穩定生成連續視頻內容,生成時長可擴展至分鐘級。用戶可以通過簡單指令,自由探索、操控并實時構建虛擬環境。 比如輸入:“一座漂浮的島嶼上有瀑布和小屋,夜空中繁星與行星閃耀,整體采用動漫風格,細節豐富,色彩鮮艷,營造出充滿魔法氣息的氛圍”。
模型就能生成 25fps 的流暢畫面,你用鍵盤操作角色時,它會做出符合物理邏輯的反應,比如繞開障礙、跨越臺階,而不是隨機跳動。技術上,它結合了 3D 因果 VAE 與擴散 Transformer,并用 GTA5 與 Unreal Engine 搭建了 1350 小時交互視頻數據集,保證了動作的合理性和場景的多樣性。更重要的是,它在 8 月份開源,意味著研究者和開發者可以直接調用,在 VR、影視、甚至元宇宙內容創作中探索落地。 還有,在 2025 年 WAIC 上,騰訊正式發布并開源了混元 3D 世界模型 1.0(HunyuanWorld-1.0)。它是業內首個同時具備 沉浸漫游、交互和物理仿真 能力的開源 3D 世界生成模型。 該模型融合了全景視覺生成與分層 3D 重建技術,支持文本或圖像輸入,可在幾分鐘內生成高質量、風格多樣的 360° 虛擬場景。生成的世界支持對象級解耦與交互,并能導出標準 3D Mesh 格式,兼容 Unity、Unreal Engine、Blender 等主流工具,從而滿足 游戲、虛擬演出、沉浸式社交及科研仿真的應用需求。
混元 3D 世界模型的推出與騰訊在游戲和虛擬內容上的業務積累高度相關。在未來的應用中,它可能被用于構建沉浸式場景、虛擬演出或互動社交環境。比如輸入:“一間日式風格的木屋,內部擺放茶具,可以從室外走進室內。
模型會生成一個 360° 可探索的空間,不僅能圍繞木屋,還能看到其內部,與茶具互動。它通過“分層 3D 重建”技術,既保證了全景一致性,又支持對象級別的交互,而且生成的場景可直接導入主流 3D 引擎,快速轉化為標準化資產。在7月正式開源后,8月中旬騰訊又推出了 Lite 版,讓消費級顯卡也能運行,顯示出其擴大開發者生態的意圖。
02 從語言到世界 世界模型為何會在此時成為“大廠必爭之地”? 從技術邏輯看,LLM賽道已經高度內卷。近年來,幾乎所有主流大廠都推出了百億、千億參數的語言模型,功能趨同,差異化有限。即便是ChatGPT、Claude、文心、通義、Kimi等產品,在文本問答、寫作輔助上的體驗差距逐漸縮小。行業迫切需要一個更高壁壘的方向。而三維環境推理、物理世界建模,正是這種“更高門檻”。 所謂“世界模型”,核心是讓AI不僅能理解靜態的數據,還能模擬現實世界的動態過程。它既包含對空間、物體、人物的建模,也涉及因果關系和物理規律的學習。DeepMind在2023年就提出,世界模型是實現具身智能的前提,因為機器人必須在腦中“預測下一秒會發生什么”,才能做出正確動作。 當然,推動這一方向走向前臺的,可能還有現實的產業需求。 在機器人領域,真實環境下的訓練成本極高。一臺機械臂學習“抓起物體”的任務,可能需要上千次失敗實驗。世界模型提供虛擬環境,讓機器人先在仿真里試錯,再遷移到現實,大幅降低成本。 在自動駕駛場景,復雜路況和長尾情況是研發難點。世界模型可以生成各種極端天氣、復雜交通的虛擬場景,用于補充真實道路數據。特斯拉在 2024 年披露,其 FSD 系統每天生成數十億公里虛擬駕駛數據,仿真平臺已成為必要環節。 在游戲行業,AI 原生游戲的探索正在進行。傳統游戲依賴人工設計關卡和劇情,而世界模型可以通過自然語言提示生成場景、角色和交互。Matrix Game 就是這一方向的代表。對開發者而言,這意味著開發周期縮短,對玩家而言,則可能獲得更具開放性的體驗。 影視、虛擬現實、元宇宙 等領域,也開始嘗試用世界模型生成大規模動態場景。 對大廠來說,這不僅是應用驅動,也是壁壘所在。訓練一個高保真世界模型的算力消耗,往往是比同規模語言模型高的。高質量三維動態數據遠比文本、圖像稀缺。英偉達 Cosmos 的參數規模雖只有 14B,但使用了 2000 萬小時真實世界交互和工業數據。資源門檻和技術復雜度,讓世界模型成為大廠優勢能夠發揮的方向。 總的來看,三家公司切入點各不相同: DeepMind 更偏科研導向,把 Genie 與智能體框架 AgentWorlds 結合,用于大規模訓練。 而昆侖萬維依托游戲業務,主攻“AI原生游戲”,并借開源吸引開發者。 騰訊則強調工具化,結合游戲、社交生態,未來可能擴展到機器人研究。 不同路徑背后,是相似的邏輯:在語言模型趨同之后,尋找新的高門檻賽道。 03 長期豪賭,長線博弈 世界模型距離大規模落地還有不短的距離。 即使是DeepMind、騰訊這樣的公司,也承認訓練 Genie 3、混元 3D 的資源消耗巨大。DeepMind在論文里指出,Genie 3 在復雜場景下的穩定性仍有限。騰訊則表示,混元 3D 的訓練成本相當于兩套大語言模型。 三維動態數據難以獲取。大多數團隊依賴合成或引擎生成,但能否無縫遷移到現實,仍是未知數。OpenAI Robotics 的研究就發現,虛擬環境里的表現往往無法直接映射到真實機器人。 當前產品多為演示或實驗性。Matrix Game 2.0 能生成任務和角色,但仍遠未形成規模化用戶市場。自動駕駛仿真仍需真實道路補充。機器人在虛擬環境學到的技能,遷移成功率有限。 這些不確定性,決定了世界模型是一場高投入、長周期的豪賭。研發一個中等規模世界模型,每年投入可能高達數億美元。但對大廠而言,風險在于不下注。若未來十年,機器人、自動駕駛、虛擬世界確實以世界模型為基礎,那么提前缺席意味著失去定義入口的機會。 因此我們看到,谷歌、昆侖萬維、騰訊幾乎在同一時間亮相。這未必意味著立刻能帶來收入,但已經成為它們戰略敘事的一部分。 在行業中,世界模型也頻繁被提到。英偉達 CEO 黃仁勛在今年演講中說:“世界模型是 AI 下一步的核心,不僅要理解語言,還要理解世界。”中國工程院院士張亞勤去年在論壇上也指出,世界模型可能成為連接虛擬與現實的關鍵技術之一。 未來幾年,其余廠商是否會加入競爭仍待觀察。但可以確認的是,世界模型已經從研究概念,進入大廠的資源清單。 高算力成本、數據難題、應用落地的不確定性,決定了它短期內不會成為“下一個 ChatGPT”。但也正因如此,它成了大廠不能缺席的方向。 這是一場長期博弈:結果如何,取決于技術和市場的共同演化。無論它是否會成為未來的關鍵基礎設施,大廠們已經在下注。
|