Оптимус-1: Гибридные мультимодальные агенты с памятью превосходят в задачах с долгосрочной перспективой.
Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks
August 7, 2024
Авторы: Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Dongmei Jiang, Liqiang Nie
cs.AI
Аннотация
Построение агента общего назначения является давней целью в области искусственного интеллекта. Существующие агенты достигли значительного прогресса во многих областях, однако они все еще испытывают трудности с выполнением задач долгосрочного планирования в открытом мире. Мы связываем это с недостатком необходимых знаний о мире и мультимодального опыта, который может направлять агентов через разнообразие долгосрочных задач. В данной статье мы предлагаем гибридный мультимодальный модуль памяти для решения вышеупомянутых проблем. Он 1) преобразует знания в Иерархический Направленный Граф Знаний, который позволяет агентам явно представлять и учить мировые знания, и 2) обобщает историческую информацию в Абстрагированный Мультимодальный Пул Опыта, который предоставляет агентам богатые ссылки для контекстного обучения. На основе гибридного мультимодального модуля памяти строится мультимодальный агент Optimus-1 с посвященным Планировщиком на основе Знаний и Отражателем, основанным на Опыте, что способствует лучшему планированию и рефлексии в условиях долгосрочных задач в Minecraft. Обширные экспериментальные результаты показывают, что Optimus-1 значительно превосходит все существующие агенты на сложных бенчмарках долгосрочных задач и проявляет производительность, близкую к уровню человека во многих задачах. Кроме того, мы представляем различные Мультимодальные Большие Языковые Модели (MLLMs) как основу Optimus-1. Экспериментальные результаты показывают, что Optimus-1 проявляет сильную обобщаемость с помощью гибридного мультимодального модуля памяти, превосходя базовую модель GPT-4V во многих задачах.
English
Building a general-purpose agent is a long-standing vision in the field of
artificial intelligence. Existing agents have made remarkable progress in many
domains, yet they still struggle to complete long-horizon tasks in an open
world. We attribute this to the lack of necessary world knowledge and
multimodal experience that can guide agents through a variety of long-horizon
tasks. In this paper, we propose a Hybrid Multimodal Memory module to address
the above challenges. It 1) transforms knowledge into Hierarchical Directed
Knowledge Graph that allows agents to explicitly represent and learn world
knowledge, and 2) summarises historical information into Abstracted Multimodal
Experience Pool that provide agents with rich references for in-context
learning. On top of the Hybrid Multimodal Memory module, a multimodal agent,
Optimus-1, is constructed with dedicated Knowledge-guided Planner and
Experience-Driven Reflector, contributing to a better planning and reflection
in the face of long-horizon tasks in Minecraft. Extensive experimental results
show that Optimus-1 significantly outperforms all existing agents on
challenging long-horizon task benchmarks, and exhibits near human-level
performance on many tasks. In addition, we introduce various Multimodal Large
Language Models (MLLMs) as the backbone of Optimus-1. Experimental results show
that Optimus-1 exhibits strong generalization with the help of the Hybrid
Multimodal Memory module, outperforming the GPT-4V baseline on many tasks.Summary
AI-Generated Summary