ChatPaper.aiChatPaper

Optimus-1: Hybride multimodale Speicher gestützte Agenten übertreffen in Langzeit-Aufgaben.

Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks

August 7, 2024
Autoren: Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Dongmei Jiang, Liqiang Nie
cs.AI

Zusammenfassung

Das Entwickeln eines allgemeinen Agenten ist eine langjährige Vision im Bereich der künstlichen Intelligenz. Bestehende Agenten haben in vielen Bereichen bemerkenswerte Fortschritte erzielt, kämpfen jedoch immer noch damit, langfristige Aufgaben in einer offenen Welt zu bewältigen. Wir führen dies auf den Mangel an notwendigem Weltwissen und multimodaler Erfahrung zurück, die Agenten durch eine Vielzahl von langfristigen Aufgaben führen können. In diesem Artikel schlagen wir ein Hybrid Multimodal Memory-Modul vor, um die oben genannten Herausforderungen anzugehen. Es 1) wandelt Wissen in einen Hierarchischen Gerichteten Wissensgraphen um, der es Agenten ermöglicht, Weltwissen explizit darzustellen und zu erlernen, und 2) fasst historische Informationen in einen Abstrahierten Multimodalen Erfahrungspool zusammen, der Agenten reichhaltige Referenzen für kontextbezogenes Lernen bietet. Auf Basis des Hybrid Multimodal Memory-Moduls wird ein multimodaler Agent, Optimus-1, mit einem dedizierten Wissensgesteuerten Planer und einem Erfahrungsgetriebenen Reflektor konstruiert, was zu einer besseren Planung und Reflexion bei langfristigen Aufgaben in Minecraft führt. Umfangreiche experimentelle Ergebnisse zeigen, dass Optimus-1 auf anspruchsvollen langfristigen Aufgaben-Benchmarks signifikant besser abschneidet als alle bestehenden Agenten und bei vielen Aufgaben eine Leistung auf nahezu menschlichem Niveau zeigt. Darüber hinaus führen wir verschiedene Multimodale Große Sprachmodelle (MLLMs) als Rückgrat von Optimus-1 ein. Experimentelle Ergebnisse zeigen, dass Optimus-1 dank des Hybrid Multimodal Memory-Moduls eine starke Verallgemeinerung aufweist und auf vielen Aufgaben die GPT-4V-Basislinie übertrifft.
English
Building a general-purpose agent is a long-standing vision in the field of artificial intelligence. Existing agents have made remarkable progress in many domains, yet they still struggle to complete long-horizon tasks in an open world. We attribute this to the lack of necessary world knowledge and multimodal experience that can guide agents through a variety of long-horizon tasks. In this paper, we propose a Hybrid Multimodal Memory module to address the above challenges. It 1) transforms knowledge into Hierarchical Directed Knowledge Graph that allows agents to explicitly represent and learn world knowledge, and 2) summarises historical information into Abstracted Multimodal Experience Pool that provide agents with rich references for in-context learning. On top of the Hybrid Multimodal Memory module, a multimodal agent, Optimus-1, is constructed with dedicated Knowledge-guided Planner and Experience-Driven Reflector, contributing to a better planning and reflection in the face of long-horizon tasks in Minecraft. Extensive experimental results show that Optimus-1 significantly outperforms all existing agents on challenging long-horizon task benchmarks, and exhibits near human-level performance on many tasks. In addition, we introduce various Multimodal Large Language Models (MLLMs) as the backbone of Optimus-1. Experimental results show that Optimus-1 exhibits strong generalization with the help of the Hybrid Multimodal Memory module, outperforming the GPT-4V baseline on many tasks.

Summary

AI-Generated Summary

PDF322November 28, 2024