Ella : Agents sociaux incarnés dotés d'une mémoire à long terme
Ella: Embodied Social Agents with Lifelong Memory
June 30, 2025
Auteurs: Hongxin Zhang, Zheyuan Zhang, Zeyuan Wang, Zunzhe Zhang, Lixing Fang, Qinhong Zhou, Chuang Gan
cs.AI
Résumé
Nous présentons Ella, un agent social incarné capable d'apprentissage continu au sein d'une communauté dans un monde ouvert en 3D, où les agents accumulent des expériences et acquièrent des connaissances grâce à des observations visuelles quotidiennes et des interactions sociales. Au cœur des capacités d'Ella se trouve un système de mémoire multimodale structurée et à long terme qui stocke, met à jour et récupère efficacement les informations. Il est composé d'une mémoire sémantique centrée sur les noms pour organiser les connaissances acquises et d'une mémoire épisodique spatio-temporelle pour capturer les expériences multimodales. En intégrant ce système de mémoire continue avec des modèles de base, Ella récupère des informations pertinentes pour la prise de décision, planifie des activités quotidiennes, construit des relations sociales et évolue de manière autonome tout en coexistant avec d'autres êtres intelligents dans le monde ouvert. Nous menons des évaluations orientées sur les capacités dans un monde ouvert dynamique en 3D où 15 agents participent à des activités sociales pendant plusieurs jours et sont évalués à l'aide d'une série de tests contrôlés inédits. Les résultats expérimentaux montrent qu'Ella peut influencer, diriger et coopérer efficacement avec d'autres agents pour atteindre des objectifs, démontrant ainsi sa capacité à apprendre efficacement par l'observation et l'interaction sociale. Nos résultats mettent en lumière le potentiel transformateur de la combinaison de systèmes de mémoire structurés avec des modèles de base pour faire progresser l'intelligence incarnée. Plus de vidéos sont disponibles à l'adresse suivante : https://umass-embodied-agi.github.io/Ella/.
English
We introduce Ella, an embodied social agent capable of lifelong learning
within a community in a 3D open world, where agents accumulate experiences and
acquire knowledge through everyday visual observations and social interactions.
At the core of Ella's capabilities is a structured, long-term multimodal memory
system that stores, updates, and retrieves information effectively. It consists
of a name-centric semantic memory for organizing acquired knowledge and a
spatiotemporal episodic memory for capturing multimodal experiences. By
integrating this lifelong memory system with foundation models, Ella retrieves
relevant information for decision-making, plans daily activities, builds social
relationships, and evolves autonomously while coexisting with other intelligent
beings in the open world. We conduct capability-oriented evaluations in a
dynamic 3D open world where 15 agents engage in social activities for days and
are assessed with a suite of unseen controlled evaluations. Experimental
results show that Ella can influence, lead, and cooperate with other agents
well to achieve goals, showcasing its ability to learn effectively through
observation and social interaction. Our findings highlight the transformative
potential of combining structured memory systems with foundation models for
advancing embodied intelligence. More videos can be found at
https://umass-embodied-agi.github.io/Ella/.