WorldLines : Évaluation comparative et modélisation d'agents incarnés dotés d'état pour des horizons temporels longs

Résumé

Pour assister les humains sur de longues périodes dans des foyers réels, les agents incarnés doivent se souvenir des routines des utilisateurs, des états du monde et des interactions passées. Les références existantes en matière de mémoire à long terme évaluent principalement la récupération et le question-réponse centrés sur le langage, tandis que les références incarnées se concentrent souvent sur l'exécution de tâches à court terme sans tester l'utilisation de la mémoire à long terme dans des environnements dynamiques. Nous présentons WorldLines, une référence axée sur les projets pour l'assistance domestique incarnée à long terme. Il construit des traces domestiques temporellement étendues avec des dialogues, des actions, des retours d'exécution, des changements d'état d'objets et d'appareils, et les convertit en échantillons liés à des preuves pour le Memory QA et la planification de tâches incarnée. Nous proposons également ObsMem, un cadre de mémoire basé sur l'observateur qui maintient des mémoires conscientes de la visibilité et des traces d'état natives des actions pour des décisions tenant compte de l'état. Les expériences révèlent des défis persistants dans l'observabilité partielle, les états du monde écrasés et la traduction de la mémoire à long terme en plans incarnés, tandis qu'ObsMem offre une architecture de référence plus solide pour ce contexte.

English

To assist humans over extended periods in real homes, embodied agents must remember user routines, world states, and past interactions. Existing long-term memory benchmarks mainly evaluate language-centric retrieval and question answering, while embodied benchmarks often focus on short-horizon task execution without testing long-term memory use in dynamic environments. We introduce WorldLines, a project-driven benchmark for long-horizon embodied household assistance. It constructs temporally extended household traces with dialogues, actions, execution feedback, object and device state changes, and converts them into evidence-linked samples for Memory QA and Embodied Task Planning. We further propose ObsMem, an observer-grounded memory framework that maintains visibility-aware memories and action-native state trails for state-aware decisions. Experiments reveal persistent challenges in partial observability, overwritten world states, and translating long-term memory into embodied plans, while ObsMem offers a stronger reference architecture for this setting.