每日精選AI研究論文及翻譯
我們介紹了Lumine,這是首個開放式配方,用於開發能在具有挑戰性的3D開放世界環境中實時完成數小時複雜任務的通用型智能體。Lumine採用了類人交互範式,通過視覺-語言模型驅動,將感知、推理與行動以端到端的方式統一。它以5赫茲的頻率處理原始像素,生成精確的30赫茲鍵鼠操作,並僅在必要時自適應地調用推理功能。在《原神》中訓練的Lumine,成功以與人類相當的效率完成了整個五小時的蒙德主線劇情,並能根據自然語言指令,在3D開放世界探索與2D圖形用戶界面操作中執行廣泛任務,包括收集、戰鬥、解謎及與NPC互動。除了在特定領域內的表現外,Lumine還展現出強大的零樣本跨遊戲泛化能力。無需任何微調,它便能在《鳴潮》中完成100分鐘的任務,並完整通關《崩壞:星穹鐵道》首章五小時的內容。這些令人鼓舞的成果凸顯了Lumine在不同世界及交互動態中的有效性,標誌著在開放環境中邁向通用型智能體的具體一步。