Optimus-1 : Des agents dotés d'une mémoire multimodale hybride excellent dans les tâches à long terme
Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks
August 7, 2024
Auteurs: Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Dongmei Jiang, Liqiang Nie
cs.AI
Résumé
La construction d'un agent à usage général est une vision de longue date dans le domaine de l'intelligence artificielle. Les agents existants ont réalisé des progrès remarquables dans de nombreux domaines, mais ils peinent encore à accomplir des tâches à long terme dans un monde ouvert. Nous attribuons cela au manque de connaissances du monde et d'expériences multimodales nécessaires pour guider les agents à travers une variété de tâches à long terme. Dans cet article, nous proposons un module de Mémoire Multimodale Hybride pour relever ces défis. Celui-ci 1) transforme les connaissances en un Graphe de Connaissance Hiérarchique Dirigé qui permet aux agents de représenter et d'apprendre explicitement les connaissances du monde, et 2) résume les informations historiques dans un Pool d'Expériences Multimodales Abstraites qui fournit aux agents des références riches pour l'apprentissage en contexte. Sur la base du module de Mémoire Multimodale Hybride, un agent multimodal, Optimus-1, est construit avec un Planificateur Guidé par les Connaissances et un Réflecteur Piloté par l'Expérience, contribuant à une meilleure planification et réflexion face aux tâches à long terme dans Minecraft. Les résultats expérimentaux approfondis montrent qu'Optimus-1 surpasse significativement tous les agents existants sur des benchmarks de tâches à long terme difficiles, et atteint des performances proches de celles d'un humain sur de nombreuses tâches. De plus, nous introduisons divers Modèles de Langage Multimodaux de Grande Taille (MLLMs) comme base d'Optimus-1. Les résultats expérimentaux montrent qu'Optimus-1 présente une forte généralisation grâce au module de Mémoire Multimodale Hybride, surpassant le modèle de référence GPT-4V sur de nombreuses tâches.
English
Building a general-purpose agent is a long-standing vision in the field of
artificial intelligence. Existing agents have made remarkable progress in many
domains, yet they still struggle to complete long-horizon tasks in an open
world. We attribute this to the lack of necessary world knowledge and
multimodal experience that can guide agents through a variety of long-horizon
tasks. In this paper, we propose a Hybrid Multimodal Memory module to address
the above challenges. It 1) transforms knowledge into Hierarchical Directed
Knowledge Graph that allows agents to explicitly represent and learn world
knowledge, and 2) summarises historical information into Abstracted Multimodal
Experience Pool that provide agents with rich references for in-context
learning. On top of the Hybrid Multimodal Memory module, a multimodal agent,
Optimus-1, is constructed with dedicated Knowledge-guided Planner and
Experience-Driven Reflector, contributing to a better planning and reflection
in the face of long-horizon tasks in Minecraft. Extensive experimental results
show that Optimus-1 significantly outperforms all existing agents on
challenging long-horizon task benchmarks, and exhibits near human-level
performance on many tasks. In addition, we introduce various Multimodal Large
Language Models (MLLMs) as the backbone of Optimus-1. Experimental results show
that Optimus-1 exhibits strong generalization with the help of the Hybrid
Multimodal Memory module, outperforming the GPT-4V baseline on many tasks.Summary
AI-Generated Summary