ChatPaper.aiChatPaper

Ella: Agentes Sociales Embebidos con Memoria de Largo Plazo

Ella: Embodied Social Agents with Lifelong Memory

June 30, 2025
Autores: Hongxin Zhang, Zheyuan Zhang, Zeyuan Wang, Zunzhe Zhang, Lixing Fang, Qinhong Zhou, Chuang Gan
cs.AI

Resumen

Presentamos a Ella, un agente social encarnado capaz de aprendizaje continuo dentro de una comunidad en un mundo abierto en 3D, donde los agentes acumulan experiencias y adquieren conocimiento a través de observaciones visuales cotidianas e interacciones sociales. En el núcleo de las capacidades de Ella se encuentra un sistema de memoria multimodal estructurado y a largo plazo que almacena, actualiza y recupera información de manera efectiva. Este sistema consta de una memoria semántica centrada en nombres para organizar el conocimiento adquirido y una memoria episódica espaciotemporal para capturar experiencias multimodales. Al integrar este sistema de memoria continua con modelos fundacionales, Ella recupera información relevante para la toma de decisiones, planifica actividades diarias, construye relaciones sociales y evoluciona de manera autónoma mientras coexiste con otros seres inteligentes en el mundo abierto. Realizamos evaluaciones orientadas a capacidades en un mundo abierto en 3D dinámico donde 15 agentes participan en actividades sociales durante varios días y son evaluados con una serie de pruebas controladas no vistas previamente. Los resultados experimentales muestran que Ella puede influir, liderar y cooperar eficazmente con otros agentes para alcanzar objetivos, demostrando su capacidad para aprender de manera efectiva a través de la observación y la interacción social. Nuestros hallazgos resaltan el potencial transformador de combinar sistemas de memoria estructurada con modelos fundacionales para avanzar en la inteligencia encarnada. Más videos pueden encontrarse en https://umass-embodied-agi.github.io/Ella/.
English
We introduce Ella, an embodied social agent capable of lifelong learning within a community in a 3D open world, where agents accumulate experiences and acquire knowledge through everyday visual observations and social interactions. At the core of Ella's capabilities is a structured, long-term multimodal memory system that stores, updates, and retrieves information effectively. It consists of a name-centric semantic memory for organizing acquired knowledge and a spatiotemporal episodic memory for capturing multimodal experiences. By integrating this lifelong memory system with foundation models, Ella retrieves relevant information for decision-making, plans daily activities, builds social relationships, and evolves autonomously while coexisting with other intelligent beings in the open world. We conduct capability-oriented evaluations in a dynamic 3D open world where 15 agents engage in social activities for days and are assessed with a suite of unseen controlled evaluations. Experimental results show that Ella can influence, lead, and cooperate with other agents well to achieve goals, showcasing its ability to learn effectively through observation and social interaction. Our findings highlight the transformative potential of combining structured memory systems with foundation models for advancing embodied intelligence. More videos can be found at https://umass-embodied-agi.github.io/Ella/.
PDF21July 2, 2025