ChatPaper.aiChatPaper

Optimus-3 : Vers des agents Minecraft multimodaux généralistes dotés d'experts en tâches évolutifs

Optimus-3: Towards Generalist Multimodal Minecraft Agents with Scalable Task Experts

June 12, 2025
Auteurs: Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Weili Guan, Dongmei Jiang, Liqiang Nie
cs.AI

Résumé

Récemment, les agents basés sur des modèles de langage multimodaux de grande échelle (MLLMs) ont réalisé des progrès remarquables dans divers domaines. Cependant, la construction d'un agent généraliste doté de capacités telles que la perception, la planification, l'action, l'ancrage et la réflexion dans des environnements ouverts comme Minecraft reste un défi : données spécifiques au domaine insuffisantes, interférence entre tâches hétérogènes et diversité visuelle dans les environnements ouverts. Dans cet article, nous abordons ces défis à travers trois contributions clés. 1) Nous proposons un pipeline de génération de données enrichi par des connaissances pour fournir des données d'entraînement évolutives et de haute qualité pour le développement d'agents. 2) Pour atténuer l'interférence entre tâches hétérogènes, nous introduisons une architecture Mixture-of-Experts (MoE) avec routage au niveau des tâches. 3) Nous développons une approche d'apprentissage par renforcement augmenté par un raisonnement multimodal pour améliorer la capacité de raisonnement de l'agent face à la diversité visuelle dans Minecraft. Sur la base de ces innovations, nous présentons Optimus-3, un agent généraliste pour Minecraft. Les résultats expérimentaux approfondis démontrent qu'Optimus-3 surpasse à la fois les modèles de langage multimodaux généralistes et les agents existants de pointe dans une large gamme de tâches dans l'environnement Minecraft. Page du projet : https://cybertronagent.github.io/Optimus-3.github.io/
English
Recently, agents based on multimodal large language models (MLLMs) have achieved remarkable progress across various domains. However, building a generalist agent with capabilities such as perception, planning, action, grounding, and reflection in open-world environments like Minecraft remains challenges: insufficient domain-specific data, interference among heterogeneous tasks, and visual diversity in open-world settings. In this paper, we address these challenges through three key contributions. 1) We propose a knowledge-enhanced data generation pipeline to provide scalable and high-quality training data for agent development. 2) To mitigate interference among heterogeneous tasks, we introduce a Mixture-of-Experts (MoE) architecture with task-level routing. 3) We develop a Multimodal Reasoning-Augmented Reinforcement Learning approach to enhance the agent's reasoning ability for visual diversity in Minecraft. Built upon these innovations, we present Optimus-3, a general-purpose agent for Minecraft. Extensive experimental results demonstrate that Optimus-3 surpasses both generalist multimodal large language models and existing state-of-the-art agents across a wide range of tasks in the Minecraft environment. Project page: https://cybertronagent.github.io/Optimus-3.github.io/
PDF182June 13, 2025