엘라: 평생 기억을 가진 구현된 사회적 에이전트
Ella: Embodied Social Agents with Lifelong Memory
June 30, 2025
저자: Hongxin Zhang, Zheyuan Zhang, Zeyuan Wang, Zunzhe Zhang, Lixing Fang, Qinhong Zhou, Chuang Gan
cs.AI
초록
우리는 3D 오픈 월드 내에서 커뮤니티와 함께 평생 학습이 가능한 구체화된 사회적 에이전트인 Ella를 소개합니다. Ella는 일상적인 시각적 관찰과 사회적 상호작용을 통해 경험을 축적하고 지식을 습득합니다. Ella의 핵심 능력은 정보를 효과적으로 저장, 업데이트 및 검색하는 구조화된 장기 다중모달 메모리 시스템입니다. 이 시스템은 습득한 지식을 체계화하기 위한 이름 중심의 의미 메모리와 다중모달 경험을 포착하기 위한 시공간적 에피소드 메모리로 구성됩니다. 이 평생 메모리 시스템을 파운데이션 모델과 통합함으로써, Ella는 의사결정을 위한 관련 정보를 검색하고, 일상 활동을 계획하며, 사회적 관계를 구축하고, 오픈 월드 내 다른 지능적 존재들과 공존하면서 자율적으로 진화합니다. 우리는 15명의 에이전트가 며칠 동안 사회적 활동에 참여하고 일련의 미리 보지 않은 통제된 평가를 받는 동적 3D 오픈 월드에서 능력 지향 평가를 수행합니다. 실험 결과, Ella는 목표를 달성하기 위해 다른 에이전트들을 잘 영향을 미치고, 리드하며, 협력할 수 있어, 관찰과 사회적 상호작용을 통해 효과적으로 학습할 수 있는 능력을 보여줍니다. 우리의 연구 결과는 구조화된 메모리 시스템과 파운데이션 모델을 결합함으로써 구체화된 지능을 발전시킬 수 있는 변혁적 잠재력을 강조합니다. 더 많은 비디오는 https://umass-embodied-agi.github.io/Ella/에서 확인할 수 있습니다.
English
We introduce Ella, an embodied social agent capable of lifelong learning
within a community in a 3D open world, where agents accumulate experiences and
acquire knowledge through everyday visual observations and social interactions.
At the core of Ella's capabilities is a structured, long-term multimodal memory
system that stores, updates, and retrieves information effectively. It consists
of a name-centric semantic memory for organizing acquired knowledge and a
spatiotemporal episodic memory for capturing multimodal experiences. By
integrating this lifelong memory system with foundation models, Ella retrieves
relevant information for decision-making, plans daily activities, builds social
relationships, and evolves autonomously while coexisting with other intelligent
beings in the open world. We conduct capability-oriented evaluations in a
dynamic 3D open world where 15 agents engage in social activities for days and
are assessed with a suite of unseen controlled evaluations. Experimental
results show that Ella can influence, lead, and cooperate with other agents
well to achieve goals, showcasing its ability to learn effectively through
observation and social interaction. Our findings highlight the transformative
potential of combining structured memory systems with foundation models for
advancing embodied intelligence. More videos can be found at
https://umass-embodied-agi.github.io/Ella/.