ChatPaper.aiChatPaper

Optimus-1: Hybride multimodale geheugengestuurde agenten blinken uit in langetermijntaken

Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks

August 7, 2024
Auteurs: Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Dongmei Jiang, Liqiang Nie
cs.AI

Samenvatting

Het bouwen van een algemeen toepasbare agent is een lang gekoesterde visie in het veld van kunstmatige intelligentie. Bestaande agents hebben opmerkelijke vooruitgang geboekt in veel domeinen, maar ze hebben nog steeds moeite met het voltooien van langetermijntaken in een open wereld. Wij schrijven dit toe aan het ontbreken van de nodige wereldkennis en multimodale ervaring die agents kunnen begeleiden bij een verscheidenheid aan langetermijntaken. In dit artikel stellen we een Hybride Multimodale Geheugenmodule voor om de bovenstaande uitdagingen aan te pakken. Deze module 1) transformeert kennis in een Hiërarchisch Gerichte Kennisdiagram dat agents in staat stelt om wereldkennis expliciet te representeren en te leren, en 2) vat historische informatie samen in een Geabstraheerde Multimodale Ervaringspool die agents rijke referenties biedt voor in-context leren. Bovenop de Hybride Multimodale Geheugenmodule wordt een multimodale agent, Optimus-1, geconstrueerd met een toegewijde Kennisgestuurde Planner en een Ervaring-Gestuurde Reflector, wat bijdraagt aan betere planning en reflectie bij langetermijntaken in Minecraft. Uitgebreide experimentele resultaten tonen aan dat Optimus-1 alle bestaande agents aanzienlijk overtreft op uitdagende langetermijntaakbenchmarks, en bijna menselijk niveau presteert bij veel taken. Daarnaast introduceren we verschillende Multimodale Grote Taalmodellen (MLLMs) als de ruggengraat van Optimus-1. Experimentele resultaten laten zien dat Optimus-1 sterke generalisatie vertoont met behulp van de Hybride Multimodale Geheugenmodule, en de GPT-4V-baseline op veel taken overtreft.
English
Building a general-purpose agent is a long-standing vision in the field of artificial intelligence. Existing agents have made remarkable progress in many domains, yet they still struggle to complete long-horizon tasks in an open world. We attribute this to the lack of necessary world knowledge and multimodal experience that can guide agents through a variety of long-horizon tasks. In this paper, we propose a Hybrid Multimodal Memory module to address the above challenges. It 1) transforms knowledge into Hierarchical Directed Knowledge Graph that allows agents to explicitly represent and learn world knowledge, and 2) summarises historical information into Abstracted Multimodal Experience Pool that provide agents with rich references for in-context learning. On top of the Hybrid Multimodal Memory module, a multimodal agent, Optimus-1, is constructed with dedicated Knowledge-guided Planner and Experience-Driven Reflector, contributing to a better planning and reflection in the face of long-horizon tasks in Minecraft. Extensive experimental results show that Optimus-1 significantly outperforms all existing agents on challenging long-horizon task benchmarks, and exhibits near human-level performance on many tasks. In addition, we introduce various Multimodal Large Language Models (MLLMs) as the backbone of Optimus-1. Experimental results show that Optimus-1 exhibits strong generalization with the help of the Hybrid Multimodal Memory module, outperforming the GPT-4V baseline on many tasks.
PDF312February 8, 2026