ChatPaper.aiChatPaper

Ella: Verkörperte soziale Agenten mit lebenslangem Gedächtnis

Ella: Embodied Social Agents with Lifelong Memory

June 30, 2025
Autoren: Hongxin Zhang, Zheyuan Zhang, Zeyuan Wang, Zunzhe Zhang, Lixing Fang, Qinhong Zhou, Chuang Gan
cs.AI

Zusammenfassung

Wir stellen Ella vor, einen verkörperten sozialen Agenten, der in der Lage ist, lebenslang in einer Gemeinschaft in einer 3D-Open-World zu lernen, in der Agenten Erfahrungen sammeln und Wissen durch alltägliche visuelle Beobachtungen und soziale Interaktionen erwerben. Im Kern von Ellas Fähigkeiten liegt ein strukturiertes, langfristiges multimodales Gedächtnissystem, das Informationen effektiv speichert, aktualisiert und abruft. Es besteht aus einem namenszentrierten semantischen Gedächtnis zur Organisation erworbenen Wissens und einem raumzeitlichen episodischen Gedächtnis zur Erfassung multimodaler Erfahrungen. Durch die Integration dieses lebenslangen Gedächtnissystems mit Foundation-Modellen ruft Ella relevante Informationen für die Entscheidungsfindung ab, plant tägliche Aktivitäten, baut soziale Beziehungen auf und entwickelt sich autonom, während sie mit anderen intelligenten Wesen in der Open-World koexistiert. Wir führen fähigkeitsorientierte Bewertungen in einer dynamischen 3D-Open-World durch, in der 15 Agenten über Tage hinweg an sozialen Aktivitäten teilnehmen und mit einer Reihe von ungesehenen kontrollierten Bewertungen beurteilt werden. Experimentelle Ergebnisse zeigen, dass Ella andere Agenten gut beeinflussen, führen und mit ihnen zusammenarbeiten kann, um Ziele zu erreichen, und demonstrieren ihre Fähigkeit, effektiv durch Beobachtung und soziale Interaktion zu lernen. Unsere Ergebnisse unterstreichen das transformative Potenzial der Kombination strukturierter Gedächtnissysteme mit Foundation-Modellen zur Weiterentwicklung verkörperter Intelligenz. Weitere Videos finden Sie unter https://umass-embodied-agi.github.io/Ella/.
English
We introduce Ella, an embodied social agent capable of lifelong learning within a community in a 3D open world, where agents accumulate experiences and acquire knowledge through everyday visual observations and social interactions. At the core of Ella's capabilities is a structured, long-term multimodal memory system that stores, updates, and retrieves information effectively. It consists of a name-centric semantic memory for organizing acquired knowledge and a spatiotemporal episodic memory for capturing multimodal experiences. By integrating this lifelong memory system with foundation models, Ella retrieves relevant information for decision-making, plans daily activities, builds social relationships, and evolves autonomously while coexisting with other intelligent beings in the open world. We conduct capability-oriented evaluations in a dynamic 3D open world where 15 agents engage in social activities for days and are assessed with a suite of unseen controlled evaluations. Experimental results show that Ella can influence, lead, and cooperate with other agents well to achieve goals, showcasing its ability to learn effectively through observation and social interaction. Our findings highlight the transformative potential of combining structured memory systems with foundation models for advancing embodied intelligence. More videos can be found at https://umass-embodied-agi.github.io/Ella/.
PDF21July 2, 2025