Optimus-1: Agentes Hibridos Multimodais com Memória Potencializada se Destacam em Tarefas de Longo Prazo
Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks
August 7, 2024
Autores: Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Dongmei Jiang, Liqiang Nie
cs.AI
Resumo
Construir um agente de propósito geral é uma visão de longa data no campo da inteligência artificial. Agentes existentes têm feito progressos notáveis em muitos domínios, no entanto, ainda enfrentam dificuldades para completar tarefas de longo horizonte em um mundo aberto. Atribuímos isso à falta de conhecimento do mundo necessário e experiência multimodal que possa orientar os agentes por uma variedade de tarefas de longo horizonte. Neste artigo, propomos um módulo de Memória Multimodal Híbrida para enfrentar os desafios mencionados. Ele 1) transforma o conhecimento em um Grafo de Conhecimento Direcionado Hierarquicamente que permite aos agentes representar e aprender explicitamente o conhecimento do mundo, e 2) resume informações históricas em um Pool de Experiência Multimodal Abstraído que fornece aos agentes referências ricas para aprendizado contextual. Sobre o módulo de Memória Multimodal Híbrida, um agente multimodal, Optimus-1, é construído com um Planejador Orientado pelo Conhecimento dedicado e um Refletor Orientado pela Experiência, contribuindo para um melhor planejamento e reflexão diante de tarefas de longo horizonte no Minecraft. Resultados experimentais extensivos mostram que o Optimus-1 supera significativamente todos os agentes existentes em benchmarks desafiadores de tarefas de longo horizonte, e exibe desempenho próximo ao nível humano em muitas tarefas. Além disso, introduzimos vários Modelos de Linguagem Multimodal Grande (MLLMs) como a espinha dorsal do Optimus-1. Resultados experimentais mostram que o Optimus-1 apresenta forte capacidade de generalização com a ajuda do módulo de Memória Multimodal Híbrida, superando a linha de base GPT-4V em muitas tarefas.
English
Building a general-purpose agent is a long-standing vision in the field of
artificial intelligence. Existing agents have made remarkable progress in many
domains, yet they still struggle to complete long-horizon tasks in an open
world. We attribute this to the lack of necessary world knowledge and
multimodal experience that can guide agents through a variety of long-horizon
tasks. In this paper, we propose a Hybrid Multimodal Memory module to address
the above challenges. It 1) transforms knowledge into Hierarchical Directed
Knowledge Graph that allows agents to explicitly represent and learn world
knowledge, and 2) summarises historical information into Abstracted Multimodal
Experience Pool that provide agents with rich references for in-context
learning. On top of the Hybrid Multimodal Memory module, a multimodal agent,
Optimus-1, is constructed with dedicated Knowledge-guided Planner and
Experience-Driven Reflector, contributing to a better planning and reflection
in the face of long-horizon tasks in Minecraft. Extensive experimental results
show that Optimus-1 significantly outperforms all existing agents on
challenging long-horizon task benchmarks, and exhibits near human-level
performance on many tasks. In addition, we introduce various Multimodal Large
Language Models (MLLMs) as the backbone of Optimus-1. Experimental results show
that Optimus-1 exhibits strong generalization with the help of the Hybrid
Multimodal Memory module, outperforming the GPT-4V baseline on many tasks.Summary
AI-Generated Summary