WorldLines: 長期的な状態を持つ具現化エージェントのベンチマーキングとモデリング

要旨

実際の家庭で長期間にわたって人間を支援するためには、身体化エージェントはユーザーのルーティン、世界の状態、過去のインタラクションを記憶する必要がある。既存の長期記憶ベンチマークは主に言語中心の検索と質問応答を評価する一方、身体化ベンチマークはしばしば短期間のタスク実行に焦点を当てており、動的環境における長期記憶の使用をテストしていない。我々はWorldLinesを導入する。これは長期的な身体化家庭支援のためのプロジェクト駆動型ベンチマークである。それは、対話、行動、実行フィードバック、物体およびデバイスの状態変化を含む時間的に拡張された家庭のトレースを構築し、それらをMemory QAおよび身体化タスク計画のための証拠リンクされたサンプルに変換する。さらに我々はObsMemを提案する。これは、状態認識の意思決定のために可視性を考慮した記憶と行動本来の状態トレイルを維持する観察者基盤の記憶フレームワークである。実験により、部分的可観測性、上書きされた世界状態、長期記憶の身体化計画への変換における持続的な課題が明らかになり、一方でObsMemはこの設定におけるより強力な参照アーキテクチャを提供する。

English

To assist humans over extended periods in real homes, embodied agents must remember user routines, world states, and past interactions. Existing long-term memory benchmarks mainly evaluate language-centric retrieval and question answering, while embodied benchmarks often focus on short-horizon task execution without testing long-term memory use in dynamic environments. We introduce WorldLines, a project-driven benchmark for long-horizon embodied household assistance. It constructs temporally extended household traces with dialogues, actions, execution feedback, object and device state changes, and converts them into evidence-linked samples for Memory QA and Embodied Task Planning. We further propose ObsMem, an observer-grounded memory framework that maintains visibility-aware memories and action-native state trails for state-aware decisions. Experiments reveal persistent challenges in partial observability, overwritten world states, and translating long-term memory into embodied plans, while ObsMem offers a stronger reference architecture for this setting.