Optimus-3: スケーラブルなタスクエキスパートを備えた汎用マルチモーダルMinecraftエージェントの実現に向けて
Optimus-3: Towards Generalist Multimodal Minecraft Agents with Scalable Task Experts
June 12, 2025
著者: Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Weili Guan, Dongmei Jiang, Liqiang Nie
cs.AI
要旨
近年、マルチモーダル大規模言語モデル(MLLM)に基づくエージェントが、さまざまな領域で顕著な進展を遂げている。しかし、Minecraftのようなオープンワールド環境において、知覚、計画、行動、接地、反省といった能力を備えた汎用エージェントを構築することは依然として課題が多い。具体的には、ドメイン固有のデータ不足、異種タスク間の干渉、オープンワールド設定における視覚的多様性などが挙げられる。本論文では、これらの課題に対処するため、以下の3つの主要な貢献を行う。1) エージェント開発のためのスケーラブルで高品質なトレーニングデータを提供するため、知識強化型データ生成パイプラインを提案する。2) 異種タスク間の干渉を軽減するため、タスクレベルルーティングを備えたMixture-of-Experts(MoE)アーキテクチャを導入する。3) Minecraftにおける視覚的多様性に対応するため、マルチモーダル推論強化型強化学習アプローチを開発し、エージェントの推論能力を向上させる。これらの革新を基盤として、Minecraft向けの汎用エージェントであるOptimus-3を提案する。広範な実験結果により、Optimus-3がMinecraft環境における多様なタスクにおいて、汎用マルチモーダル大規模言語モデルおよび既存の最先端エージェントを凌駕することが示された。プロジェクトページ: https://cybertronagent.github.io/Optimus-3.github.io/
English
Recently, agents based on multimodal large language models (MLLMs) have
achieved remarkable progress across various domains. However, building a
generalist agent with capabilities such as perception, planning, action,
grounding, and reflection in open-world environments like Minecraft remains
challenges: insufficient domain-specific data, interference among heterogeneous
tasks, and visual diversity in open-world settings. In this paper, we address
these challenges through three key contributions. 1) We propose a
knowledge-enhanced data generation pipeline to provide scalable and
high-quality training data for agent development. 2) To mitigate interference
among heterogeneous tasks, we introduce a Mixture-of-Experts (MoE) architecture
with task-level routing. 3) We develop a Multimodal Reasoning-Augmented
Reinforcement Learning approach to enhance the agent's reasoning ability for
visual diversity in Minecraft. Built upon these innovations, we present
Optimus-3, a general-purpose agent for Minecraft. Extensive experimental
results demonstrate that Optimus-3 surpasses both generalist multimodal large
language models and existing state-of-the-art agents across a wide range of
tasks in the Minecraft environment. Project page:
https://cybertronagent.github.io/Optimus-3.github.io/