ChatPaper.aiChatPaper

Optimus-3: Rumo a Agentes Multimodais Generalistas no Minecraft com Especialistas de Tarefas Escaláveis

Optimus-3: Towards Generalist Multimodal Minecraft Agents with Scalable Task Experts

June 12, 2025
Autores: Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Weili Guan, Dongmei Jiang, Liqiang Nie
cs.AI

Resumo

Recentemente, agentes baseados em modelos de linguagem multimodal de grande escala (MLLMs) alcançaram progressos notáveis em diversos domínios. No entanto, construir um agente generalista com capacidades como percepção, planejamento, ação, fundamentação e reflexão em ambientes de mundo aberto, como o Minecraft, ainda apresenta desafios: dados insuficientes específicos do domínio, interferência entre tarefas heterogêneas e diversidade visual em configurações de mundo aberto. Neste artigo, abordamos esses desafios por meio de três contribuições principais. 1) Propomos um pipeline de geração de dados aprimorado por conhecimento para fornecer dados de treinamento escaláveis e de alta qualidade para o desenvolvimento de agentes. 2) Para mitigar a interferência entre tarefas heterogêneas, introduzimos uma arquitetura Mixture-of-Experts (MoE) com roteamento em nível de tarefa. 3) Desenvolvemos uma abordagem de Aprendizado por Reforço Aumentado com Raciocínio Multimodal para aprimorar a capacidade de raciocínio do agente diante da diversidade visual no Minecraft. Com base nessas inovações, apresentamos o Optimus-3, um agente de propósito geral para o Minecraft. Resultados experimentais extensivos demonstram que o Optimus-3 supera tanto os modelos de linguagem multimodal de grande escala generalistas quanto os agentes state-of-the-art existentes em uma ampla gama de tarefas no ambiente do Minecraft. Página do projeto: https://cybertronagent.github.io/Optimus-3.github.io/
English
Recently, agents based on multimodal large language models (MLLMs) have achieved remarkable progress across various domains. However, building a generalist agent with capabilities such as perception, planning, action, grounding, and reflection in open-world environments like Minecraft remains challenges: insufficient domain-specific data, interference among heterogeneous tasks, and visual diversity in open-world settings. In this paper, we address these challenges through three key contributions. 1) We propose a knowledge-enhanced data generation pipeline to provide scalable and high-quality training data for agent development. 2) To mitigate interference among heterogeneous tasks, we introduce a Mixture-of-Experts (MoE) architecture with task-level routing. 3) We develop a Multimodal Reasoning-Augmented Reinforcement Learning approach to enhance the agent's reasoning ability for visual diversity in Minecraft. Built upon these innovations, we present Optimus-3, a general-purpose agent for Minecraft. Extensive experimental results demonstrate that Optimus-3 surpasses both generalist multimodal large language models and existing state-of-the-art agents across a wide range of tasks in the Minecraft environment. Project page: https://cybertronagent.github.io/Optimus-3.github.io/
PDF182June 13, 2025