翻訳付きの日次キュレーションされたAI研究論文
我々は、挑戦的な3Dオープンワールド環境において、数時間に及ぶ複雑なミッションをリアルタイムで完遂可能な汎用エージェントを開発するための初のオープンレシピ「Lumine」を紹介する。Lumineは、視覚言語モデルを基盤としたエンドツーエンドの手法で知覚、推論、行動を統合する人間的なインタラクションパラダイムを採用している。5Hzで生のピクセルデータを処理し、30Hzのキーボード・マウス操作を生成し、必要に応じて適応的に推論を呼び出す。『原神』で訓練されたLumineは、人間レベルの効率で5時間に及ぶモンドストのメインストーリーを完遂し、自然言語の指示に従って、3Dオープンワールド探索と2D GUI操作の両方において、収集、戦闘、パズル解決、NPCインタラクションなど幅広いタスクを実行する。ドメイン内の性能に加えて、Lumineは強力なゼロショットクロスゲーム汎化能力を示す。微調整なしで、『鳴潮』における100分のミッションと『崩壊:スターレイル』の第1章5時間を完遂する。これらの有望な結果は、Lumineが異なる世界とインタラクション力学において有効であることを強調し、オープンエンド環境における汎用エージェントへの具体的な一歩を示している。