Optimus-3: Hacia agentes multimodales generalistas en Minecraft con expertos en tareas escalables
Optimus-3: Towards Generalist Multimodal Minecraft Agents with Scalable Task Experts
June 12, 2025
Autores: Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Weili Guan, Dongmei Jiang, Liqiang Nie
cs.AI
Resumen
Recientemente, los agentes basados en modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han logrado avances notables en diversos dominios. Sin embargo, construir un agente generalista con capacidades como percepción, planificación, acción, fundamentación y reflexión en entornos de mundo abierto como Minecraft sigue presentando desafíos: datos insuficientes específicos del dominio, interferencia entre tareas heterogéneas y diversidad visual en entornos de mundo abierto. En este artículo, abordamos estos desafíos a través de tres contribuciones clave. 1) Proponemos una canalización de generación de datos mejorada con conocimiento para proporcionar datos de entrenamiento escalables y de alta calidad para el desarrollo de agentes. 2) Para mitigar la interferencia entre tareas heterogéneas, introducimos una arquitectura de Mezcla de Expertos (MoE, por sus siglas en inglés) con enrutamiento a nivel de tarea. 3) Desarrollamos un enfoque de Aprendizaje por Refuerzo Aumentado con Razonamiento Multimodal para mejorar la capacidad de razonamiento del agente frente a la diversidad visual en Minecraft. Sobre la base de estas innovaciones, presentamos Optimus-3, un agente de propósito general para Minecraft. Los resultados experimentales extensivos demuestran que Optimus-3 supera tanto a los modelos de lenguaje multimodal generalistas como a los agentes existentes más avanzados en una amplia gama de tareas en el entorno de Minecraft. Página del proyecto: https://cybertronagent.github.io/Optimus-3.github.io/
English
Recently, agents based on multimodal large language models (MLLMs) have
achieved remarkable progress across various domains. However, building a
generalist agent with capabilities such as perception, planning, action,
grounding, and reflection in open-world environments like Minecraft remains
challenges: insufficient domain-specific data, interference among heterogeneous
tasks, and visual diversity in open-world settings. In this paper, we address
these challenges through three key contributions. 1) We propose a
knowledge-enhanced data generation pipeline to provide scalable and
high-quality training data for agent development. 2) To mitigate interference
among heterogeneous tasks, we introduce a Mixture-of-Experts (MoE) architecture
with task-level routing. 3) We develop a Multimodal Reasoning-Augmented
Reinforcement Learning approach to enhance the agent's reasoning ability for
visual diversity in Minecraft. Built upon these innovations, we present
Optimus-3, a general-purpose agent for Minecraft. Extensive experimental
results demonstrate that Optimus-3 surpasses both generalist multimodal large
language models and existing state-of-the-art agents across a wide range of
tasks in the Minecraft environment. Project page:
https://cybertronagent.github.io/Optimus-3.github.io/