Optimus-1: Agenti Potenziati da Memoria Multimodale Ibrida Eccellono in Compiti a Lungo Termine
Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks
August 7, 2024
Autori: Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Dongmei Jiang, Liqiang Nie
cs.AI
Abstract
Costruire un agente a scopo generale è una visione di lunga data nel campo dell'intelligenza artificiale. Gli agenti esistenti hanno compiuto progressi notevoli in molti domini, ma continuano a incontrare difficoltà nel completare compiti a lungo termine in un mondo aperto. Attribuiamo ciò alla mancanza di conoscenza del mondo e di esperienza multimodale necessarie per guidare gli agenti attraverso una varietà di compiti a lungo termine. In questo articolo, proponiamo un modulo di Memoria Multimodale Ibrida per affrontare le suddette sfide. Esso 1) trasforma la conoscenza in un Grafo di Conoscenza Diretto Gerarchico che consente agli agenti di rappresentare e apprendere esplicitamente la conoscenza del mondo, e 2) riassume le informazioni storiche in un Pool di Esperienza Multimodale Astratta che fornisce agli agenti ricchi riferimenti per l'apprendimento in contesto. Sulla base del modulo di Memoria Multimodale Ibrida, viene costruito un agente multimodale, Optimus-1, dotato di un Pianificatore Guidato dalla Conoscenza e di un Riflettore Guidato dall'Esperienza, contribuendo a una migliore pianificazione e riflessione di fronte a compiti a lungo termine in Minecraft. I risultati sperimentali estesi dimostrano che Optimus-1 supera significativamente tutti gli agenti esistenti su benchmark di compiti a lungo termine impegnativi e mostra prestazioni quasi a livello umano in molti compiti. Inoltre, introduciamo vari Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) come backbone di Optimus-1. I risultati sperimentali mostrano che Optimus-1 esibisce una forte generalizzazione con l'aiuto del modulo di Memoria Multimodale Ibrida, superando il baseline GPT-4V in molti compiti.
English
Building a general-purpose agent is a long-standing vision in the field of
artificial intelligence. Existing agents have made remarkable progress in many
domains, yet they still struggle to complete long-horizon tasks in an open
world. We attribute this to the lack of necessary world knowledge and
multimodal experience that can guide agents through a variety of long-horizon
tasks. In this paper, we propose a Hybrid Multimodal Memory module to address
the above challenges. It 1) transforms knowledge into Hierarchical Directed
Knowledge Graph that allows agents to explicitly represent and learn world
knowledge, and 2) summarises historical information into Abstracted Multimodal
Experience Pool that provide agents with rich references for in-context
learning. On top of the Hybrid Multimodal Memory module, a multimodal agent,
Optimus-1, is constructed with dedicated Knowledge-guided Planner and
Experience-Driven Reflector, contributing to a better planning and reflection
in the face of long-horizon tasks in Minecraft. Extensive experimental results
show that Optimus-1 significantly outperforms all existing agents on
challenging long-horizon task benchmarks, and exhibits near human-level
performance on many tasks. In addition, we introduce various Multimodal Large
Language Models (MLLMs) as the backbone of Optimus-1. Experimental results show
that Optimus-1 exhibits strong generalization with the help of the Hybrid
Multimodal Memory module, outperforming the GPT-4V baseline on many tasks.