옵티머스-1: 하이브리드 다중 모달 메모리 강화 에이전트가 장기적인 과제에서 뛰어납니다.
Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks
August 7, 2024
저자: Zaijing Li, Yuquan Xie, Rui Shao, Gongwei Chen, Dongmei Jiang, Liqiang Nie
cs.AI
초록
인공지능 분야에서 일반적인 목적의 에이전트를 구축하는 것은 오랜 역사를 가진 비전입니다. 기존의 에이전트들은 많은 영역에서 현저한 진전을 이루었지만, 여전히 개방된 환경에서 장기적인 과제를 완수하는 데 어려움을 겪고 있습니다. 우리는 이를 필요한 세계 지식과 다중 모달 경험의 부족으로 설명합니다. 이러한 부족으로 인해 에이전트들이 다양한 장기적인 과제를 수행하는 데 안내할 수 있는 세계 지식을 학습하는 데 어려움을 겪고 있습니다. 본 논문에서는 위 기술적 도전에 대처하기 위해 Hybrid Multimodal Memory 모듈을 제안합니다. 이 모듈은 1) 에이전트가 명시적으로 표현하고 세계 지식을 학습할 수 있도록 계층적 방향성 지식 그래프로 지식을 변환하며, 2) 역사적 정보를 요약하여 에이전트에게 맥락 속 학습을 위한 풍부한 참고 자료를 제공하는 Abstracted Multimodal Experience Pool로 변환합니다. Hybrid Multimodal Memory 모듈을 기반으로 한 다중 모달 에이전트인 Optimus-1은 전용 지식 안내 플래너와 경험 주도 반사기를 갖추어 마인크래프트의 장기적인 과제에 대한 계획 및 반성을 개선합니다. 광범위한 실험 결과는 Optimus-1이 어려운 장기적인 과제 벤치마크에서 기존의 모든 에이전트들을 크게 능가하며, 많은 과제에서 거의 인간 수준의 성능을 보여준다는 것을 보여줍니다. 또한, Optimus-1의 기바인으로 다양한 다중 모달 대형 언어 모델(MLLMs)을 소개합니다. 실험 결과는 Hybrid Multimodal Memory 모듈의 도움으로 Optimus-1이 GPT-4V 기준을 많은 과제에서 능가하며 강력한 일반화 능력을 보여준다는 것을 보여줍니다.
English
Building a general-purpose agent is a long-standing vision in the field of
artificial intelligence. Existing agents have made remarkable progress in many
domains, yet they still struggle to complete long-horizon tasks in an open
world. We attribute this to the lack of necessary world knowledge and
multimodal experience that can guide agents through a variety of long-horizon
tasks. In this paper, we propose a Hybrid Multimodal Memory module to address
the above challenges. It 1) transforms knowledge into Hierarchical Directed
Knowledge Graph that allows agents to explicitly represent and learn world
knowledge, and 2) summarises historical information into Abstracted Multimodal
Experience Pool that provide agents with rich references for in-context
learning. On top of the Hybrid Multimodal Memory module, a multimodal agent,
Optimus-1, is constructed with dedicated Knowledge-guided Planner and
Experience-Driven Reflector, contributing to a better planning and reflection
in the face of long-horizon tasks in Minecraft. Extensive experimental results
show that Optimus-1 significantly outperforms all existing agents on
challenging long-horizon task benchmarks, and exhibits near human-level
performance on many tasks. In addition, we introduce various Multimodal Large
Language Models (MLLMs) as the backbone of Optimus-1. Experimental results show
that Optimus-1 exhibits strong generalization with the help of the Hybrid
Multimodal Memory module, outperforming the GPT-4V baseline on many tasks.Summary
AI-Generated Summary