Optimus-3: Verso Agenti Multimodali Generalisti per Minecraft con Esperti di Compiti Scalabili
Optimus-3: Towards Generalist Multimodal Minecraft Agents with Scalable Task Experts
June 12, 2025
Autori: Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Weili Guan, Dongmei Jiang, Liqiang Nie
cs.AI
Abstract
Recentemente, gli agenti basati su modelli linguistici multimodali di grandi dimensioni (MLLM) hanno ottenuto progressi significativi in vari domini. Tuttavia, costruire un agente generalista con capacità come percezione, pianificazione, azione, grounding e riflessione in ambienti open-world come Minecraft rimane una sfida: dati specifici del dominio insufficienti, interferenza tra compiti eterogenei e diversità visiva negli ambienti open-world. In questo articolo, affrontiamo queste sfide attraverso tre contributi chiave. 1) Proponiamo una pipeline di generazione dei dati potenziata dalla conoscenza per fornire dati di addestramento scalabili e di alta qualità per lo sviluppo degli agenti. 2) Per mitigare l'interferenza tra compiti eterogenei, introduciamo un'architettura Mixture-of-Experts (MoE) con routing a livello di compito. 3) Sviluppiamo un approccio di Reinforcement Learning Aumentato dal Ragionamento Multimodale per migliorare la capacità di ragionamento dell'agente di fronte alla diversità visiva in Minecraft. Basandoci su queste innovazioni, presentiamo Optimus-3, un agente generico per Minecraft. I risultati sperimentali dimostrano che Optimus-3 supera sia i modelli linguistici multimodali generalisti che gli agenti all'avanguardia esistenti in un'ampia gamma di compiti nell'ambiente Minecraft. Pagina del progetto: https://cybertronagent.github.io/Optimus-3.github.io/
English
Recently, agents based on multimodal large language models (MLLMs) have
achieved remarkable progress across various domains. However, building a
generalist agent with capabilities such as perception, planning, action,
grounding, and reflection in open-world environments like Minecraft remains
challenges: insufficient domain-specific data, interference among heterogeneous
tasks, and visual diversity in open-world settings. In this paper, we address
these challenges through three key contributions. 1) We propose a
knowledge-enhanced data generation pipeline to provide scalable and
high-quality training data for agent development. 2) To mitigate interference
among heterogeneous tasks, we introduce a Mixture-of-Experts (MoE) architecture
with task-level routing. 3) We develop a Multimodal Reasoning-Augmented
Reinforcement Learning approach to enhance the agent's reasoning ability for
visual diversity in Minecraft. Built upon these innovations, we present
Optimus-3, a general-purpose agent for Minecraft. Extensive experimental
results demonstrate that Optimus-3 surpasses both generalist multimodal large
language models and existing state-of-the-art agents across a wide range of
tasks in the Minecraft environment. Project page:
https://cybertronagent.github.io/Optimus-3.github.io/