ChatPaper.aiChatPaper

Ella : Agents sociaux incarnés dotés d'une mémoire à long terme

Ella: Embodied Social Agents with Lifelong Memory

June 30, 2025
Auteurs: Hongxin Zhang, Zheyuan Zhang, Zeyuan Wang, Zunzhe Zhang, Lixing Fang, Qinhong Zhou, Chuang Gan
cs.AI

Résumé

Nous présentons Ella, un agent social incarné capable d'apprentissage continu au sein d'une communauté dans un monde ouvert en 3D, où les agents accumulent des expériences et acquièrent des connaissances grâce à des observations visuelles quotidiennes et des interactions sociales. Au cœur des capacités d'Ella se trouve un système de mémoire multimodale structurée et à long terme qui stocke, met à jour et récupère efficacement les informations. Il est composé d'une mémoire sémantique centrée sur les noms pour organiser les connaissances acquises et d'une mémoire épisodique spatio-temporelle pour capturer les expériences multimodales. En intégrant ce système de mémoire continue avec des modèles de base, Ella récupère des informations pertinentes pour la prise de décision, planifie des activités quotidiennes, construit des relations sociales et évolue de manière autonome tout en coexistant avec d'autres êtres intelligents dans le monde ouvert. Nous menons des évaluations orientées sur les capacités dans un monde ouvert dynamique en 3D où 15 agents participent à des activités sociales pendant plusieurs jours et sont évalués à l'aide d'une série de tests contrôlés inédits. Les résultats expérimentaux montrent qu'Ella peut influencer, diriger et coopérer efficacement avec d'autres agents pour atteindre des objectifs, démontrant ainsi sa capacité à apprendre efficacement par l'observation et l'interaction sociale. Nos résultats mettent en lumière le potentiel transformateur de la combinaison de systèmes de mémoire structurés avec des modèles de base pour faire progresser l'intelligence incarnée. Plus de vidéos sont disponibles à l'adresse suivante : https://umass-embodied-agi.github.io/Ella/.
English
We introduce Ella, an embodied social agent capable of lifelong learning within a community in a 3D open world, where agents accumulate experiences and acquire knowledge through everyday visual observations and social interactions. At the core of Ella's capabilities is a structured, long-term multimodal memory system that stores, updates, and retrieves information effectively. It consists of a name-centric semantic memory for organizing acquired knowledge and a spatiotemporal episodic memory for capturing multimodal experiences. By integrating this lifelong memory system with foundation models, Ella retrieves relevant information for decision-making, plans daily activities, builds social relationships, and evolves autonomously while coexisting with other intelligent beings in the open world. We conduct capability-oriented evaluations in a dynamic 3D open world where 15 agents engage in social activities for days and are assessed with a suite of unseen controlled evaluations. Experimental results show that Ella can influence, lead, and cooperate with other agents well to achieve goals, showcasing its ability to learn effectively through observation and social interaction. Our findings highlight the transformative potential of combining structured memory systems with foundation models for advancing embodied intelligence. More videos can be found at https://umass-embodied-agi.github.io/Ella/.
PDF21July 2, 2025