ChatPaper.aiChatPaper

Ella: Agenti Sociali Embodied con Memoria a Lungo Termine

Ella: Embodied Social Agents with Lifelong Memory

June 30, 2025
Autori: Hongxin Zhang, Zheyuan Zhang, Zeyuan Wang, Zunzhe Zhang, Lixing Fang, Qinhong Zhou, Chuang Gan
cs.AI

Abstract

Presentiamo Ella, un agente sociale incarnato capace di apprendimento continuo all'interno di una comunità in un mondo aperto 3D, dove gli agenti accumulano esperienze e acquisiscono conoscenza attraverso osservazioni visive quotidiane e interazioni sociali. Al centro delle capacità di Ella si trova un sistema di memoria multimodale strutturato e a lungo termine che archivia, aggiorna e recupera informazioni in modo efficace. Esso è composto da una memoria semantica centrata sui nomi per organizzare le conoscenze acquisite e da una memoria episodica spaziotemporale per catturare esperienze multimodali. Integrando questo sistema di memoria continua con modelli di base, Ella recupera informazioni rilevanti per il processo decisionale, pianifica attività quotidiane, costruisce relazioni sociali e si evolve autonomamente mentre coesiste con altri esseri intelligenti nel mondo aperto. Abbiamo condotto valutazioni orientate alle capacità in un mondo aperto 3D dinamico, dove 15 agenti si impegnano in attività sociali per giorni e vengono valutati con una serie di test controllati non visti in precedenza. I risultati sperimentali dimostrano che Ella può influenzare, guidare e cooperare efficacemente con altri agenti per raggiungere obiettivi, mostrando la sua capacità di apprendere in modo efficace attraverso l'osservazione e l'interazione sociale. Le nostre scoperte evidenziano il potenziale trasformativo della combinazione di sistemi di memoria strutturati con modelli di base per far progredire l'intelligenza incarnata. Ulteriori video sono disponibili al seguente link: https://umass-embodied-agi.github.io/Ella/.
English
We introduce Ella, an embodied social agent capable of lifelong learning within a community in a 3D open world, where agents accumulate experiences and acquire knowledge through everyday visual observations and social interactions. At the core of Ella's capabilities is a structured, long-term multimodal memory system that stores, updates, and retrieves information effectively. It consists of a name-centric semantic memory for organizing acquired knowledge and a spatiotemporal episodic memory for capturing multimodal experiences. By integrating this lifelong memory system with foundation models, Ella retrieves relevant information for decision-making, plans daily activities, builds social relationships, and evolves autonomously while coexisting with other intelligent beings in the open world. We conduct capability-oriented evaluations in a dynamic 3D open world where 15 agents engage in social activities for days and are assessed with a suite of unseen controlled evaluations. Experimental results show that Ella can influence, lead, and cooperate with other agents well to achieve goals, showcasing its ability to learn effectively through observation and social interaction. Our findings highlight the transformative potential of combining structured memory systems with foundation models for advancing embodied intelligence. More videos can be found at https://umass-embodied-agi.github.io/Ella/.
PDF21July 2, 2025