Optimus-3: К созданию универсальных мультимодальных агентов для Minecraft с масштабируемыми экспертами по задачам
Optimus-3: Towards Generalist Multimodal Minecraft Agents with Scalable Task Experts
June 12, 2025
Авторы: Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Weili Guan, Dongmei Jiang, Liqiang Nie
cs.AI
Аннотация
В последнее время агенты, основанные на мультимодальных больших языковых моделях (MLLMs), достигли значительного прогресса в различных областях. Однако создание универсального агента с такими возможностями, как восприятие, планирование, действие, заземление и рефлексия, в открытых мирах, таких как Minecraft, остается сложной задачей: недостаток специфичных для домена данных, интерференция между разнородными задачами и визуальное разнообразие в открытых мирах. В данной статье мы решаем эти проблемы с помощью трех ключевых вкладов. 1) Мы предлагаем конвейер генерации данных, усиленный знаниями, для предоставления масштабируемых и качественных обучающих данных для разработки агентов. 2) Для снижения интерференции между разнородными задачами мы вводим архитектуру Mixture-of-Experts (MoE) с маршрутизацией на уровне задач. 3) Мы разрабатываем подход Multimodal Reasoning-Augmented Reinforcement Learning для улучшения способности агента к рассуждению в условиях визуального разнообразия в Minecraft. На основе этих инноваций мы представляем Optimus-3 — универсального агента для Minecraft. Результаты многочисленных экспериментов показывают, что Optimus-3 превосходит как универсальные мультимодальные большие языковые модели, так и существующие передовые агенты в широком спектре задач в среде Minecraft. Страница проекта: https://cybertronagent.github.io/Optimus-3.github.io/
English
Recently, agents based on multimodal large language models (MLLMs) have
achieved remarkable progress across various domains. However, building a
generalist agent with capabilities such as perception, planning, action,
grounding, and reflection in open-world environments like Minecraft remains
challenges: insufficient domain-specific data, interference among heterogeneous
tasks, and visual diversity in open-world settings. In this paper, we address
these challenges through three key contributions. 1) We propose a
knowledge-enhanced data generation pipeline to provide scalable and
high-quality training data for agent development. 2) To mitigate interference
among heterogeneous tasks, we introduce a Mixture-of-Experts (MoE) architecture
with task-level routing. 3) We develop a Multimodal Reasoning-Augmented
Reinforcement Learning approach to enhance the agent's reasoning ability for
visual diversity in Minecraft. Built upon these innovations, we present
Optimus-3, a general-purpose agent for Minecraft. Extensive experimental
results demonstrate that Optimus-3 surpasses both generalist multimodal large
language models and existing state-of-the-art agents across a wide range of
tasks in the Minecraft environment. Project page:
https://cybertronagent.github.io/Optimus-3.github.io/