ChatPaper.aiChatPaper

Ella: Belichaamde Sociale Agents met Levenslang Geheugen

Ella: Embodied Social Agents with Lifelong Memory

June 30, 2025
Auteurs: Hongxin Zhang, Zheyuan Zhang, Zeyuan Wang, Zunzhe Zhang, Lixing Fang, Qinhong Zhou, Chuang Gan
cs.AI

Samenvatting

We introduceren Ella, een belichaamde sociale agent die in staat is tot levenslang leren binnen een gemeenschap in een 3D-open wereld, waar agenten ervaringen opdoen en kennis verwerven door alledaagse visuele observaties en sociale interacties. De kern van Ella's mogelijkheden is een gestructureerd, langetermijn multimodaal geheugensysteem dat informatie effectief opslaat, bijwerkt en ophaalt. Het bestaat uit een naamgericht semantisch geheugen voor het organiseren van verworven kennis en een spatiotemporeel episodisch geheugen voor het vastleggen van multimodale ervaringen. Door dit levenslange geheugensysteem te integreren met foundation-modellen, haalt Ella relevante informatie op voor besluitvorming, plant dagelijkse activiteiten, bouwt sociale relaties op en evolueert autonoom terwijl ze samenleeft met andere intelligente wezens in de open wereld. We voeren capaciteitsgerichte evaluaties uit in een dynamische 3D-open wereld waar 15 agenten dagenlang deelnemen aan sociale activiteiten en worden beoordeeld met een reeks onbekende gecontroleerde evaluaties. Experimentele resultaten tonen aan dat Ella andere agenten goed kan beïnvloeden, leiden en samenwerken om doelen te bereiken, wat haar vermogen aantoont om effectief te leren door observatie en sociale interactie. Onze bevindingen benadrukken het transformerende potentieel van het combineren van gestructureerde geheugensystemen met foundation-modellen voor het bevorderen van belichaamde intelligentie. Meer video's zijn te vinden op https://umass-embodied-agi.github.io/Ella/.
English
We introduce Ella, an embodied social agent capable of lifelong learning within a community in a 3D open world, where agents accumulate experiences and acquire knowledge through everyday visual observations and social interactions. At the core of Ella's capabilities is a structured, long-term multimodal memory system that stores, updates, and retrieves information effectively. It consists of a name-centric semantic memory for organizing acquired knowledge and a spatiotemporal episodic memory for capturing multimodal experiences. By integrating this lifelong memory system with foundation models, Ella retrieves relevant information for decision-making, plans daily activities, builds social relationships, and evolves autonomously while coexisting with other intelligent beings in the open world. We conduct capability-oriented evaluations in a dynamic 3D open world where 15 agents engage in social activities for days and are assessed with a suite of unseen controlled evaluations. Experimental results show that Ella can influence, lead, and cooperate with other agents well to achieve goals, showcasing its ability to learn effectively through observation and social interaction. Our findings highlight the transformative potential of combining structured memory systems with foundation models for advancing embodied intelligence. More videos can be found at https://umass-embodied-agi.github.io/Ella/.
PDF21July 2, 2025