ChatPaper.aiChatPaper

Optimus-3: スケーラブルなタスクエキスパートを備えた汎用マルチモーダルMinecraftエージェントの実現に向けて

Optimus-3: Towards Generalist Multimodal Minecraft Agents with Scalable Task Experts

June 12, 2025
著者: Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Weili Guan, Dongmei Jiang, Liqiang Nie
cs.AI

要旨

近年、マルチモーダル大規模言語モデル(MLLM)に基づくエージェントが、さまざまな領域で顕著な進展を遂げている。しかし、Minecraftのようなオープンワールド環境において、知覚、計画、行動、接地、反省といった能力を備えた汎用エージェントを構築することは依然として課題が多い。具体的には、ドメイン固有のデータ不足、異種タスク間の干渉、オープンワールド設定における視覚的多様性などが挙げられる。本論文では、これらの課題に対処するため、以下の3つの主要な貢献を行う。1) エージェント開発のためのスケーラブルで高品質なトレーニングデータを提供するため、知識強化型データ生成パイプラインを提案する。2) 異種タスク間の干渉を軽減するため、タスクレベルルーティングを備えたMixture-of-Experts(MoE)アーキテクチャを導入する。3) Minecraftにおける視覚的多様性に対応するため、マルチモーダル推論強化型強化学習アプローチを開発し、エージェントの推論能力を向上させる。これらの革新を基盤として、Minecraft向けの汎用エージェントであるOptimus-3を提案する。広範な実験結果により、Optimus-3がMinecraft環境における多様なタスクにおいて、汎用マルチモーダル大規模言語モデルおよび既存の最先端エージェントを凌駕することが示された。プロジェクトページ: https://cybertronagent.github.io/Optimus-3.github.io/
English
Recently, agents based on multimodal large language models (MLLMs) have achieved remarkable progress across various domains. However, building a generalist agent with capabilities such as perception, planning, action, grounding, and reflection in open-world environments like Minecraft remains challenges: insufficient domain-specific data, interference among heterogeneous tasks, and visual diversity in open-world settings. In this paper, we address these challenges through three key contributions. 1) We propose a knowledge-enhanced data generation pipeline to provide scalable and high-quality training data for agent development. 2) To mitigate interference among heterogeneous tasks, we introduce a Mixture-of-Experts (MoE) architecture with task-level routing. 3) We develop a Multimodal Reasoning-Augmented Reinforcement Learning approach to enhance the agent's reasoning ability for visual diversity in Minecraft. Built upon these innovations, we present Optimus-3, a general-purpose agent for Minecraft. Extensive experimental results demonstrate that Optimus-3 surpasses both generalist multimodal large language models and existing state-of-the-art agents across a wide range of tasks in the Minecraft environment. Project page: https://cybertronagent.github.io/Optimus-3.github.io/
PDF182June 13, 2025