WorldLines: Benchmarken en modelleren van langetermijn-stateful belichaamde agenten
WorldLines: Benchmarking and Modeling Long-Horizon Stateful Embodied Agents
June 17, 2026
Auteurs: Yehang Zhang, Jianchong Su, Haojian Huang, Yifan Chang, Tianhao Zhou, Xinli Xu, Yingjie Xu, Yinchuan Li, Zexi Li, Ying-Cong Chen
cs.AI
Samenvatting
Om mensen gedurende langere perioden in echte huizen te ondersteunen, moeten belichaamde agenten gebruikersroutines, wereldtoestanden en eerdere interacties onthouden. Bestaande benchmarks voor langetermijngeheugen richten zich voornamelijk op taalgerichte retrieval en vraagbeantwoording, terwijl belichaamde benchmarks vaak kortehorizontaken testen zonder het gebruik van langetermijngeheugen in dynamische omgevingen te evalueren. Wij introduceren WorldLines, een projectgedreven benchmark voor langetermijn belichaamde huishoudelijke ondersteuning. Het construeert tijdsuitgebreide huishoudelijke sporen met dialogen, acties, uitvoeringsfeedback, veranderingen in object- en apparaatstoestanden, en zet deze om in bewijsgekoppelde voorbeelden voor Geheugen QA en Belichaamde Taakplanning. Verder stellen wij ObsMem voor, een observatiegebaseerd geheugenraamwerk dat zichtbaarheidsbewuste herinneringen en actie-native toestandssporen onderhoudt voor toestandsbewuste beslissingen. Experimenten onthullen aanhoudende uitdagingen op het gebied van partiële waarneembaarheid, overschreven wereldtoestanden en het vertalen van langetermijngeheugen naar belichaamde plannen, terwijl ObsMem een sterkere referentiearchitectuur biedt voor deze context.
English
To assist humans over extended periods in real homes, embodied agents must remember user routines, world states, and past interactions. Existing long-term memory benchmarks mainly evaluate language-centric retrieval and question answering, while embodied benchmarks often focus on short-horizon task execution without testing long-term memory use in dynamic environments. We introduce WorldLines, a project-driven benchmark for long-horizon embodied household assistance. It constructs temporally extended household traces with dialogues, actions, execution feedback, object and device state changes, and converts them into evidence-linked samples for Memory QA and Embodied Task Planning. We further propose ObsMem, an observer-grounded memory framework that maintains visibility-aware memories and action-native state trails for state-aware decisions. Experiments reveal persistent challenges in partial observability, overwritten world states, and translating long-term memory into embodied plans, while ObsMem offers a stronger reference architecture for this setting.