ChatPaper.aiChatPaper

Optimus-3: Auf dem Weg zu generalistischen multimodalen Minecraft-Agenten mit skalierbaren Aufgabenexperten

Optimus-3: Towards Generalist Multimodal Minecraft Agents with Scalable Task Experts

June 12, 2025
Autoren: Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Weili Guan, Dongmei Jiang, Liqiang Nie
cs.AI

Zusammenfassung

Kürzlich haben Agenten, die auf multimodalen großen Sprachmodellen (MLLMs) basieren, bemerkenswerte Fortschritte in verschiedenen Domänen erzielt. Dennoch bleibt die Entwicklung eines Generalisten-Agenten mit Fähigkeiten wie Wahrnehmung, Planung, Handlung, Verankerung und Reflexion in offenen Welten wie Minecraft eine Herausforderung: unzureichende domänenspezifische Daten, Interferenzen zwischen heterogenen Aufgaben und visuelle Vielfalt in offenen Weltszenarien. In diesem Papier gehen wir diese Herausforderungen durch drei wesentliche Beiträge an. 1) Wir schlagen eine wissensbasierte Daten-Generierungspipeline vor, um skalierbare und hochwertige Trainingsdaten für die Agentenentwicklung bereitzustellen. 2) Um Interferenzen zwischen heterogenen Aufgaben zu minimieren, führen wir eine Mixture-of-Experts (MoE)-Architektur mit Aufgabenebenen-Routing ein. 3) Wir entwickeln einen Multimodal Reasoning-Augmented Reinforcement Learning-Ansatz, um die Fähigkeit des Agenten zur Bewältigung visueller Vielfalt in Minecraft zu verbessern. Aufbauend auf diesen Innovationen präsentieren wir Optimus-3, einen universellen Agenten für Minecraft. Umfangreiche experimentelle Ergebnisse zeigen, dass Optimus-3 sowohl allgemeine multimodale große Sprachmodelle als auch bestehende state-of-the-art Agenten in einer Vielzahl von Aufgaben in der Minecraft-Umgebung übertrifft. Projektseite: https://cybertronagent.github.io/Optimus-3.github.io/
English
Recently, agents based on multimodal large language models (MLLMs) have achieved remarkable progress across various domains. However, building a generalist agent with capabilities such as perception, planning, action, grounding, and reflection in open-world environments like Minecraft remains challenges: insufficient domain-specific data, interference among heterogeneous tasks, and visual diversity in open-world settings. In this paper, we address these challenges through three key contributions. 1) We propose a knowledge-enhanced data generation pipeline to provide scalable and high-quality training data for agent development. 2) To mitigate interference among heterogeneous tasks, we introduce a Mixture-of-Experts (MoE) architecture with task-level routing. 3) We develop a Multimodal Reasoning-Augmented Reinforcement Learning approach to enhance the agent's reasoning ability for visual diversity in Minecraft. Built upon these innovations, we present Optimus-3, a general-purpose agent for Minecraft. Extensive experimental results demonstrate that Optimus-3 surpasses both generalist multimodal large language models and existing state-of-the-art agents across a wide range of tasks in the Minecraft environment. Project page: https://cybertronagent.github.io/Optimus-3.github.io/
PDF182June 13, 2025