Ella: Воплощенные социальные агенты с долговременной памятью
Ella: Embodied Social Agents with Lifelong Memory
June 30, 2025
Авторы: Hongxin Zhang, Zheyuan Zhang, Zeyuan Wang, Zunzhe Zhang, Lixing Fang, Qinhong Zhou, Chuang Gan
cs.AI
Аннотация
Мы представляем Ella — воплощённого социального агента, способного к непрерывному обучению в сообществе в трёхмерном открытом мире, где агенты накапливают опыт и приобретают знания через повседневные визуальные наблюдения и социальные взаимодействия. В основе возможностей Ella лежит структурированная долговременная мультимодальная система памяти, которая эффективно хранит, обновляет и извлекает информацию. Она состоит из семантической памяти, организованной вокруг имён, для систематизации полученных знаний, и пространственно-временной эпизодической памяти для фиксации мультимодальных переживаний. Интегрируя эту систему непрерывной памяти с базовыми моделями, Ella извлекает релевантную информацию для принятия решений, планирует повседневные действия, выстраивает социальные связи и эволюционирует автономно, сосуществуя с другими разумными существами в открытом мире. Мы проводим оценки, ориентированные на возможности, в динамичном трёхмерном открытом мире, где 15 агентов участвуют в социальной активности в течение нескольких дней и проходят серию контролируемых тестов с неизвестными условиями. Экспериментальные результаты показывают, что Ella способна влиять, руководить и сотрудничать с другими агентами для достижения целей, демонстрируя свою способность эффективно обучаться через наблюдение и социальное взаимодействие. Наши результаты подчеркивают трансформационный потенциал сочетания структурированных систем памяти с базовыми моделями для развития воплощённого интеллекта. Дополнительные видео можно найти по адресу https://umass-embodied-agi.github.io/Ella/.
English
We introduce Ella, an embodied social agent capable of lifelong learning
within a community in a 3D open world, where agents accumulate experiences and
acquire knowledge through everyday visual observations and social interactions.
At the core of Ella's capabilities is a structured, long-term multimodal memory
system that stores, updates, and retrieves information effectively. It consists
of a name-centric semantic memory for organizing acquired knowledge and a
spatiotemporal episodic memory for capturing multimodal experiences. By
integrating this lifelong memory system with foundation models, Ella retrieves
relevant information for decision-making, plans daily activities, builds social
relationships, and evolves autonomously while coexisting with other intelligent
beings in the open world. We conduct capability-oriented evaluations in a
dynamic 3D open world where 15 agents engage in social activities for days and
are assessed with a suite of unseen controlled evaluations. Experimental
results show that Ella can influence, lead, and cooperate with other agents
well to achieve goals, showcasing its ability to learn effectively through
observation and social interaction. Our findings highlight the transformative
potential of combining structured memory systems with foundation models for
advancing embodied intelligence. More videos can be found at
https://umass-embodied-agi.github.io/Ella/.