ChatPaper.aiChatPaper

Optimus-1: Agentes híbridos multimodales potenciados por memoria destacan en tareas de largo horizonte.

Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks

August 7, 2024
Autores: Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Dongmei Jiang, Liqiang Nie
cs.AI

Resumen

La construcción de un agente de propósito general es una visión de larga data en el campo de la inteligencia artificial. Los agentes existentes han logrado un progreso notable en muchos dominios, sin embargo, aún luchan por completar tareas de largo horizonte en un mundo abierto. Atribuimos esto a la falta de conocimiento del mundo necesario y experiencia multimodal que pueda guiar a los agentes a través de una variedad de tareas de largo horizonte. En este documento, proponemos un módulo de Memoria Multimodal Híbrida para abordar los desafíos mencionados anteriormente. 1) Transforma el conocimiento en un Grafo de Conocimiento Dirigido Jerárquicamente que permite a los agentes representar y aprender explícitamente el conocimiento del mundo, y 2) resume la información histórica en un Conjunto de Experiencia Multimodal Abstracta que proporciona a los agentes referencias ricas para el aprendizaje contextual. Sobre el módulo de Memoria Multimodal Híbrida, se construye un agente multimodal, Optimus-1, con un Planificador Guiado por el Conocimiento y un Reflector Impulsado por la Experiencia, contribuyendo a una mejor planificación y reflexión frente a tareas de largo horizonte en Minecraft. Los extensos resultados experimentales muestran que Optimus-1 supera significativamente a todos los agentes existentes en desafiantes benchmarks de tareas de largo horizonte, y exhibe un rendimiento cercano al nivel humano en muchas tareas. Además, presentamos varios Modelos de Lenguaje Multimodal Grande (MLLMs) como la columna vertebral de Optimus-1. Los resultados experimentales muestran que Optimus-1 exhibe una fuerte generalización con la ayuda del módulo de Memoria Multimodal Híbrida, superando la línea base GPT-4V en muchas tareas.
English
Building a general-purpose agent is a long-standing vision in the field of artificial intelligence. Existing agents have made remarkable progress in many domains, yet they still struggle to complete long-horizon tasks in an open world. We attribute this to the lack of necessary world knowledge and multimodal experience that can guide agents through a variety of long-horizon tasks. In this paper, we propose a Hybrid Multimodal Memory module to address the above challenges. It 1) transforms knowledge into Hierarchical Directed Knowledge Graph that allows agents to explicitly represent and learn world knowledge, and 2) summarises historical information into Abstracted Multimodal Experience Pool that provide agents with rich references for in-context learning. On top of the Hybrid Multimodal Memory module, a multimodal agent, Optimus-1, is constructed with dedicated Knowledge-guided Planner and Experience-Driven Reflector, contributing to a better planning and reflection in the face of long-horizon tasks in Minecraft. Extensive experimental results show that Optimus-1 significantly outperforms all existing agents on challenging long-horizon task benchmarks, and exhibits near human-level performance on many tasks. In addition, we introduce various Multimodal Large Language Models (MLLMs) as the backbone of Optimus-1. Experimental results show that Optimus-1 exhibits strong generalization with the help of the Hybrid Multimodal Memory module, outperforming the GPT-4V baseline on many tasks.

Summary

AI-Generated Summary

PDF322November 28, 2024