ChatPaper.aiChatPaper

エラ:生涯記憶を持つ具現化された社会エージェント

Ella: Embodied Social Agents with Lifelong Memory

June 30, 2025
著者: Hongxin Zhang, Zheyuan Zhang, Zeyuan Wang, Zunzhe Zhang, Lixing Fang, Qinhong Zhou, Chuang Gan
cs.AI

要旨

私たちは、3Dオープンワールドのコミュニティ内で生涯学習が可能な具身化された社会的エージェント「Ella」を紹介します。Ellaは、日常的な視覚的観察と社会的相互作用を通じて経験を蓄積し、知識を獲得します。Ellaの能力の中核には、情報を効果的に保存、更新、検索する構造化された長期マルチモーダルメモリシステムがあります。このシステムは、獲得した知識を整理するための名前中心の意味記憶と、マルチモーダルな経験を捕捉するための時空間的エピソード記憶で構成されています。この生涯メモリシステムを基盤モデルと統合することで、Ellaは意思決定に関連する情報を検索し、日常活動を計画し、社会的関係を構築し、オープンワールドで他の知的存在と共存しながら自律的に進化します。私たちは、15のエージェントが数日間にわたって社会的活動に従事する動的な3Dオープンワールドで、一連の未見の制御評価を用いて能力指向の評価を実施しました。実験結果は、Ellaが他のエージェントに影響を与え、リードし、協力して目標を達成する能力を示しており、観察と社会的相互作用を通じて効果的に学習する能力を実証しています。私たちの研究結果は、構造化されたメモリシステムと基盤モデルを組み合わせることが、具身化された知能を進歩させるための変革的な可能性を強調しています。詳細な動画はhttps://umass-embodied-agi.github.io/Ella/でご覧いただけます。
English
We introduce Ella, an embodied social agent capable of lifelong learning within a community in a 3D open world, where agents accumulate experiences and acquire knowledge through everyday visual observations and social interactions. At the core of Ella's capabilities is a structured, long-term multimodal memory system that stores, updates, and retrieves information effectively. It consists of a name-centric semantic memory for organizing acquired knowledge and a spatiotemporal episodic memory for capturing multimodal experiences. By integrating this lifelong memory system with foundation models, Ella retrieves relevant information for decision-making, plans daily activities, builds social relationships, and evolves autonomously while coexisting with other intelligent beings in the open world. We conduct capability-oriented evaluations in a dynamic 3D open world where 15 agents engage in social activities for days and are assessed with a suite of unseen controlled evaluations. Experimental results show that Ella can influence, lead, and cooperate with other agents well to achieve goals, showcasing its ability to learn effectively through observation and social interaction. Our findings highlight the transformative potential of combining structured memory systems with foundation models for advancing embodied intelligence. More videos can be found at https://umass-embodied-agi.github.io/Ella/.
PDF21July 2, 2025