Optimus-3: Op weg naar generalistische multimodale Minecraft-agenten met schaalbare taakexperts
Optimus-3: Towards Generalist Multimodal Minecraft Agents with Scalable Task Experts
June 12, 2025
Auteurs: Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Weili Guan, Dongmei Jiang, Liqiang Nie
cs.AI
Samenvatting
Onlangs hebben agenten gebaseerd op multimodale grote taalmodellen (MLLMs) opmerkelijke vooruitgang geboekt in verschillende domeinen. Het bouwen van een generalistische agent met capaciteiten zoals waarneming, planning, actie, verankering en reflectie in open-wereldomgevingen zoals Minecraft blijft echter een uitdaging: onvoldoende domeinspecifieke data, interferentie tussen heterogene taken en visuele diversiteit in open-wereldomgevingen. In dit artikel gaan we deze uitdagingen aan door middel van drie belangrijke bijdragen. 1) We stellen een kennisversterkte datageneratiepijplijn voor om schaalbare en hoogwaardige trainingsdata te leveren voor de ontwikkeling van agenten. 2) Om interferentie tussen heterogene taken te verminderen, introduceren we een Mixture-of-Experts (MoE)-architectuur met taakniveau-routering. 3) We ontwikkelen een Multimodale Redenering-Versterkte Reinforcement Learning-benadering om het redeneervermogen van de agent te verbeteren voor visuele diversiteit in Minecraft. Gebaseerd op deze innovaties presenteren we Optimus-3, een algemeen inzetbare agent voor Minecraft. Uitgebreide experimentele resultaten tonen aan dat Optimus-3 zowel generalistische multimodale grote taalmodellen als bestaande state-of-the-art agenten overtreft in een breed scala aan taken in de Minecraft-omgeving. Projectpagina: https://cybertronagent.github.io/Optimus-3.github.io/
English
Recently, agents based on multimodal large language models (MLLMs) have
achieved remarkable progress across various domains. However, building a
generalist agent with capabilities such as perception, planning, action,
grounding, and reflection in open-world environments like Minecraft remains
challenges: insufficient domain-specific data, interference among heterogeneous
tasks, and visual diversity in open-world settings. In this paper, we address
these challenges through three key contributions. 1) We propose a
knowledge-enhanced data generation pipeline to provide scalable and
high-quality training data for agent development. 2) To mitigate interference
among heterogeneous tasks, we introduce a Mixture-of-Experts (MoE) architecture
with task-level routing. 3) We develop a Multimodal Reasoning-Augmented
Reinforcement Learning approach to enhance the agent's reasoning ability for
visual diversity in Minecraft. Built upon these innovations, we present
Optimus-3, a general-purpose agent for Minecraft. Extensive experimental
results demonstrate that Optimus-3 surpasses both generalist multimodal large
language models and existing state-of-the-art agents across a wide range of
tasks in the Minecraft environment. Project page:
https://cybertronagent.github.io/Optimus-3.github.io/