ルミネ:3Dオープンワールドにおける汎用エージェント構築のためのオープンレシピ
Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds
November 12, 2025
著者: Weihao Tan, Xiangyang Li, Yunhao Fang, Heyuan Yao, Shi Yan, Hao Luo, Tenglong Ao, Huihui Li, Hongbin Ren, Bairen Yi, Yujia Qin, Bo An, Libin Liu, Guang Shi
cs.AI
要旨
我々は、挑戦的な3Dオープンワールド環境において、数時間に及ぶ複雑なミッションをリアルタイムで完遂可能な汎用エージェントを開発するための初のオープンレシピ「Lumine」を紹介する。Lumineは、視覚言語モデルを基盤としたエンドツーエンドの手法で知覚、推論、行動を統合する人間的なインタラクションパラダイムを採用している。5Hzで生のピクセルデータを処理し、30Hzのキーボード・マウス操作を生成し、必要に応じて適応的に推論を呼び出す。『原神』で訓練されたLumineは、人間レベルの効率で5時間に及ぶモンドストのメインストーリーを完遂し、自然言語の指示に従って、3Dオープンワールド探索と2D GUI操作の両方において、収集、戦闘、パズル解決、NPCインタラクションなど幅広いタスクを実行する。ドメイン内の性能に加えて、Lumineは強力なゼロショットクロスゲーム汎化能力を示す。微調整なしで、『鳴潮』における100分のミッションと『崩壊:スターレイル』の第1章5時間を完遂する。これらの有望な結果は、Lumineが異なる世界とインタラクション力学において有効であることを強調し、オープンエンド環境における汎用エージェントへの具体的な一歩を示している。
English
We introduce Lumine, the first open recipe for developing generalist agents capable of completing hours-long complex missions in real time within challenging 3D open-world environments. Lumine adopts a human-like interaction paradigm that unifies perception, reasoning, and action in an end-to-end manner, powered by a vision-language model. It processes raw pixels at 5 Hz to produce precise 30 Hz keyboard-mouse actions and adaptively invokes reasoning only when necessary. Trained in Genshin Impact, Lumine successfully completes the entire five-hour Mondstadt main storyline on par with human-level efficiency and follows natural language instructions to perform a broad spectrum of tasks in both 3D open-world exploration and 2D GUI manipulation across collection, combat, puzzle-solving, and NPC interaction. In addition to its in-domain performance, Lumine demonstrates strong zero-shot cross-game generalization. Without any fine-tuning, it accomplishes 100-minute missions in Wuthering Waves and the full five-hour first chapter of Honkai: Star Rail. These promising results highlight Lumine's effectiveness across distinct worlds and interaction dynamics, marking a concrete step toward generalist agents in open-ended environments.