WorldLines: Evaluación comparativa y modelado de agentes encarnados con estado a largo plazo

Resumen

Para asistir a humanos durante períodos prolongados en hogares reales, los agentes encarnados deben recordar rutinas de usuarios, estados del mundo e interacciones pasadas. Los benchmarks existentes de memoria a largo plazo evalúan principalmente la recuperación de información y respuesta a preguntas centradas en lenguaje, mientras que los benchmarks encarnados suelen enfocarse en la ejecución de tareas a corto plazo sin evaluar el uso de memoria a largo plazo en entornos dinámicos. Presentamos WorldLines, un benchmark impulsado por proyectos para la asistencia doméstica encarnada a largo plazo. Este construye trazas domésticas temporalmente extendidas con diálogos, acciones, retroalimentación de ejecución, cambios en objetos y estados de dispositivos, y las convierte en muestras vinculadas a evidencia para Memory QA y Planificación de Tareas Encarnadas. Además, proponemos ObsMem, un marco de memoria fundamentado en el observador que mantiene memorias conscientes de visibilidad y rastros de estado nativos de acciones para decisiones conscientes del estado. Los experimentos revelan desafíos persistentes en la observabilidad parcial, estados del mundo sobrescritos y la traducción de memoria a largo plazo en planes encarnados, mientras que ObsMem ofrece una arquitectura de referencia más sólida para este escenario.

English

To assist humans over extended periods in real homes, embodied agents must remember user routines, world states, and past interactions. Existing long-term memory benchmarks mainly evaluate language-centric retrieval and question answering, while embodied benchmarks often focus on short-horizon task execution without testing long-term memory use in dynamic environments. We introduce WorldLines, a project-driven benchmark for long-horizon embodied household assistance. It constructs temporally extended household traces with dialogues, actions, execution feedback, object and device state changes, and converts them into evidence-linked samples for Memory QA and Embodied Task Planning. We further propose ObsMem, an observer-grounded memory framework that maintains visibility-aware memories and action-native state trails for state-aware decisions. Experiments reveal persistent challenges in partial observability, overwritten world states, and translating long-term memory into embodied plans, while ObsMem offers a stronger reference architecture for this setting.