ChatPaper.aiChatPaper

Optimus-3: 확장 가능한 작업 전문가를 통한 일반적인 다중 모드 마인크래프트 에이전트 개발

Optimus-3: Towards Generalist Multimodal Minecraft Agents with Scalable Task Experts

June 12, 2025
저자: Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Weili Guan, Dongmei Jiang, Liqiang Nie
cs.AI

초록

최근, 다중 모달 대형 언어 모델(MLLM)을 기반으로 한 에이전트들이 다양한 분야에서 주목할 만한 진전을 이루어냈다. 그러나 Minecraft와 같은 개방형 환경에서 지각, 계획, 행동, 근거화, 반성 등의 능력을 갖춘 일반적인 에이전트를 구축하는 것은 여전히 도메인 특화 데이터의 부족, 이질적 작업 간의 간섭, 개방형 환경에서의 시각적 다양성과 같은 과제로 남아 있다. 본 논문에서는 이러한 과제를 해결하기 위해 세 가지 주요 기여를 제안한다. 1) 에이전트 개발을 위한 확장 가능하고 고품질의 훈련 데이터를 제공하기 위해 지식 강화 데이터 생성 파이프라인을 제안한다. 2) 이질적 작업 간의 간섭을 완화하기 위해 작업 수준 라우팅을 갖춘 Mixture-of-Experts(MoE) 아키텍처를 도입한다. 3) Minecraft에서의 시각적 다양성에 대한 에이전트의 추론 능력을 강화하기 위해 다중 모달 추론 강화 강화 학습 접근법을 개발한다. 이러한 혁신을 바탕으로, Minecraft를 위한 범용 에이전트인 Optimus-3을 제시한다. 광범위한 실험 결과는 Optimus-3이 Minecraft 환경에서의 다양한 작업에서 일반적인 다중 모달 대형 언어 모델과 기존의 최첨단 에이전트들을 능가함을 보여준다. 프로젝트 페이지: https://cybertronagent.github.io/Optimus-3.github.io/
English
Recently, agents based on multimodal large language models (MLLMs) have achieved remarkable progress across various domains. However, building a generalist agent with capabilities such as perception, planning, action, grounding, and reflection in open-world environments like Minecraft remains challenges: insufficient domain-specific data, interference among heterogeneous tasks, and visual diversity in open-world settings. In this paper, we address these challenges through three key contributions. 1) We propose a knowledge-enhanced data generation pipeline to provide scalable and high-quality training data for agent development. 2) To mitigate interference among heterogeneous tasks, we introduce a Mixture-of-Experts (MoE) architecture with task-level routing. 3) We develop a Multimodal Reasoning-Augmented Reinforcement Learning approach to enhance the agent's reasoning ability for visual diversity in Minecraft. Built upon these innovations, we present Optimus-3, a general-purpose agent for Minecraft. Extensive experimental results demonstrate that Optimus-3 surpasses both generalist multimodal large language models and existing state-of-the-art agents across a wide range of tasks in the Minecraft environment. Project page: https://cybertronagent.github.io/Optimus-3.github.io/
PDF182June 13, 2025