Optimus-1: ハイブリッドマルチモーダルメモリを備えたエージェントが長期タスクで優れた性能を発揮
Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks
August 7, 2024
著者: Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Dongmei Jiang, Liqiang Nie
cs.AI
要旨
汎用エージェントの構築は、人工知能分野における長年のビジョンである。既存のエージェントは多くの領域で顕著な進歩を遂げているが、オープンワールドにおける長期的なタスクの遂行には依然として苦戦している。これは、エージェントが多様な長期的タスクを遂行するために必要な世界知識とマルチモーダルな経験が不足しているためだと我々は考えている。本論文では、これらの課題に対処するためにハイブリッドマルチモーダルメモリモジュールを提案する。このモジュールは、1) 知識を階層的指向知識グラフに変換し、エージェントが世界知識を明示的に表現し学習できるようにし、2) 過去の情報を抽象化されたマルチモーダル経験プールに要約し、エージェントに文脈内学習のための豊富な参照を提供する。ハイブリッドマルチモーダルメモリモジュールを基盤として、マルチモーダルエージェントOptimus-1が構築され、専用の知識誘導プランナーと経験駆動リフレクターを備えることで、Minecraftにおける長期的タスクに対する計画と反省を改善する。大規模な実験結果は、Optimus-1が挑戦的な長期的タスクベンチマークにおいて既存のすべてのエージェントを大幅に上回り、多くのタスクで人間に近い性能を示すことを示している。さらに、Optimus-1の基盤として様々なマルチモーダル大規模言語モデル(MLLMs)を導入した。実験結果は、Optimus-1がハイブリッドマルチモーダルメモリモジュールの助けを借りて強力な汎化能力を示し、多くのタスクでGPT-4Vベースラインを上回ることを示している。
English
Building a general-purpose agent is a long-standing vision in the field of
artificial intelligence. Existing agents have made remarkable progress in many
domains, yet they still struggle to complete long-horizon tasks in an open
world. We attribute this to the lack of necessary world knowledge and
multimodal experience that can guide agents through a variety of long-horizon
tasks. In this paper, we propose a Hybrid Multimodal Memory module to address
the above challenges. It 1) transforms knowledge into Hierarchical Directed
Knowledge Graph that allows agents to explicitly represent and learn world
knowledge, and 2) summarises historical information into Abstracted Multimodal
Experience Pool that provide agents with rich references for in-context
learning. On top of the Hybrid Multimodal Memory module, a multimodal agent,
Optimus-1, is constructed with dedicated Knowledge-guided Planner and
Experience-Driven Reflector, contributing to a better planning and reflection
in the face of long-horizon tasks in Minecraft. Extensive experimental results
show that Optimus-1 significantly outperforms all existing agents on
challenging long-horizon task benchmarks, and exhibits near human-level
performance on many tasks. In addition, we introduce various Multimodal Large
Language Models (MLLMs) as the backbone of Optimus-1. Experimental results show
that Optimus-1 exhibits strong generalization with the help of the Hybrid
Multimodal Memory module, outperforming the GPT-4V baseline on many tasks.Summary
AI-Generated Summary