STMA: 長期的なエンボディードタスク計画のための時空間メモリエージェント
STMA: A Spatio-Temporal Memory Agent for Long-Horizon Embodied Task Planning
February 14, 2025
著者: Mingcong Lei, Yiming Zhao, Ge Wang, Zhixin Mai, Shuguang Cui, Yatong Han, Jinke Ren
cs.AI
要旨
身体化知能の重要な目標は、エージェントが動的環境下で長期的なタスクを遂行しつつ、堅牢な意思決定と適応性を維持できるようにすることです。この目標を達成するため、我々は時空間メモリを統合することでタスク計画と実行を強化する新しいフレームワーク「時空間メモリエージェント(STMA)」を提案します。STMAは以下の3つの重要なコンポーネントに基づいて構築されています:(1) 歴史的および環境的な変化をリアルタイムで捕捉する時空間メモリモジュール、(2) 適応的な空間推論を促進する動的知識グラフ、(3) タスク戦略を反復的に洗練するプランナー・クリティックメカニズムです。我々はSTMAをTextWorld環境で評価し、複雑さの異なる32のタスクにおいて多段階の計画と探索を行いました。実験結果は、STMAが最先端のモデルと比較して成功率で31.25%、平均スコアで24.7%の向上を達成したことを示しています。これらの結果は、時空間メモリが身体化エージェントのメモリ能力を向上させる上で有効であることを強調しています。
English
A key objective of embodied intelligence is enabling agents to perform
long-horizon tasks in dynamic environments while maintaining robust
decision-making and adaptability. To achieve this goal, we propose the
Spatio-Temporal Memory Agent (STMA), a novel framework designed to enhance task
planning and execution by integrating spatio-temporal memory. STMA is built
upon three critical components: (1) a spatio-temporal memory module that
captures historical and environmental changes in real time, (2) a dynamic
knowledge graph that facilitates adaptive spatial reasoning, and (3) a
planner-critic mechanism that iteratively refines task strategies. We evaluate
STMA in the TextWorld environment on 32 tasks, involving multi-step planning
and exploration under varying levels of complexity. Experimental results
demonstrate that STMA achieves a 31.25% improvement in success rate and a 24.7%
increase in average score compared to the state-of-the-art model. The results
highlight the effectiveness of spatio-temporal memory in advancing the memory
capabilities of embodied agents.Summary
AI-Generated Summary