ChatPaper.aiChatPaper

Ella: Agentes Sociais Embarcados com Memória de Longo Prazo

Ella: Embodied Social Agents with Lifelong Memory

June 30, 2025
Autores: Hongxin Zhang, Zheyuan Zhang, Zeyuan Wang, Zunzhe Zhang, Lixing Fang, Qinhong Zhou, Chuang Gan
cs.AI

Resumo

Apresentamos Ella, um agente social corporificado capaz de aprendizado contínuo dentro de uma comunidade em um mundo aberto 3D, onde os agentes acumulam experiências e adquirem conhecimento por meio de observações visuais e interações sociais cotidianas. No cerne das capacidades de Ella está um sistema de memória multimodal estruturado e de longo prazo que armazena, atualiza e recupera informações de forma eficaz. Ele consiste em uma memória semântica centrada em nomes para organizar o conhecimento adquirido e uma memória episódica espaço-temporal para capturar experiências multimodais. Ao integrar esse sistema de memória contínua com modelos de base, Ella recupera informações relevantes para a tomada de decisões, planeja atividades diárias, constrói relacionamentos sociais e evolui de forma autônoma enquanto coexiste com outros seres inteligentes no mundo aberto. Realizamos avaliações orientadas por capacidades em um mundo aberto 3D dinâmico, onde 15 agentes participam de atividades sociais por dias e são avaliados com uma série de testes controlados inéditos. Os resultados experimentais mostram que Ella pode influenciar, liderar e cooperar bem com outros agentes para alcançar objetivos, demonstrando sua capacidade de aprender efetivamente por meio de observação e interação social. Nossas descobertas destacam o potencial transformador de combinar sistemas de memória estruturados com modelos de base para avançar a inteligência corporificada. Mais vídeos podem ser encontrados em https://umass-embodied-agi.github.io/Ella/.
English
We introduce Ella, an embodied social agent capable of lifelong learning within a community in a 3D open world, where agents accumulate experiences and acquire knowledge through everyday visual observations and social interactions. At the core of Ella's capabilities is a structured, long-term multimodal memory system that stores, updates, and retrieves information effectively. It consists of a name-centric semantic memory for organizing acquired knowledge and a spatiotemporal episodic memory for capturing multimodal experiences. By integrating this lifelong memory system with foundation models, Ella retrieves relevant information for decision-making, plans daily activities, builds social relationships, and evolves autonomously while coexisting with other intelligent beings in the open world. We conduct capability-oriented evaluations in a dynamic 3D open world where 15 agents engage in social activities for days and are assessed with a suite of unseen controlled evaluations. Experimental results show that Ella can influence, lead, and cooperate with other agents well to achieve goals, showcasing its ability to learn effectively through observation and social interaction. Our findings highlight the transformative potential of combining structured memory systems with foundation models for advancing embodied intelligence. More videos can be found at https://umass-embodied-agi.github.io/Ella/.
PDF21July 2, 2025