Mem4Nav: 階層型空間認知長短期記憶システムによる都市環境における視覚言語ナビゲーションの強化
Mem4Nav: Boosting Vision-and-Language Navigation in Urban Environments with a Hierarchical Spatial-Cognition Long-Short Memory System
June 24, 2025
著者: Lixuan He, Haoyu Dong, Zhenxing Chen, Yangcheng Yu, Jie Feng, Yong Li
cs.AI
要旨
大規模都市環境における視覚と言語ナビゲーション(VLN)は、具現化されたエージェントが複雑なシーンにおいて言語指示を接地し、長期的な時間軸にわたって関連する経験を想起することを要求する。従来のモジュール型パイプラインは解釈可能性を提供するが、統一されたメモリを欠いており、一方でエンドツーエンドの(M)LLMエージェントは視覚と言語の融合に優れているものの、固定されたコンテキストウィンドウと暗黙的な空間推論に制約されている。本論文では、Mem4Navを紹介する。これは、任意のVLNバックボーンを強化できる階層的な空間認知長短期記憶システムである。Mem4Navは、細かいボクセルインデックス化のための疎なオクツリーと、高レベルのランドマーク接続性のためのセマンティックトポロジグラフを融合し、両方を可逆Transformerを介して埋め込まれた学習可能なメモリトークンに保存する。長期記憶(LTM)は、オクツリーとグラフノードの両方で歴史的観測を圧縮して保持し、短期記憶(STM)は最近のマルチモーダルエントリを相対座標でキャッシュし、リアルタイムの障害物回避と局所計画を可能にする。各ステップで、STMの検索は動的コンテキストを鋭く刈り込み、より深い履歴が必要な場合、LTMトークンは損失なくデコードされて過去の埋め込みを再構築する。TouchdownとMap2Seqにおいて、3つのバックボーン(モジュール型、プロンプトベースLLMを備えた最先端VLN、ストライドアテンションMLLMを備えた最先端VLN)で評価された結果、Mem4Navはタスク完了率で7-13ポイントの向上、十分なSPD削減、および10ポイント以上のnDTW改善をもたらした。アブレーション研究は、階層的なマップと二重メモリモジュールの両方が不可欠であることを確認している。我々のコードはhttps://github.com/tsinghua-fib-lab/Mem4Navで公開されている。
English
Vision-and-Language Navigation (VLN) in large-scale urban environments
requires embodied agents to ground linguistic instructions in complex scenes
and recall relevant experiences over extended time horizons. Prior modular
pipelines offer interpretability but lack unified memory, while end-to-end
(M)LLM agents excel at fusing vision and language yet remain constrained by
fixed context windows and implicit spatial reasoning. We introduce
Mem4Nav, a hierarchical spatial-cognition long-short memory system
that can augment any VLN backbone. Mem4Nav fuses a sparse octree for
fine-grained voxel indexing with a semantic topology graph for high-level
landmark connectivity, storing both in trainable memory tokens embedded via a
reversible Transformer. Long-term memory (LTM) compresses and retains
historical observations at both octree and graph nodes, while short-term memory
(STM) caches recent multimodal entries in relative coordinates for real-time
obstacle avoidance and local planning. At each step, STM retrieval sharply
prunes dynamic context, and, when deeper history is needed, LTM tokens are
decoded losslessly to reconstruct past embeddings. Evaluated on Touchdown and
Map2Seq across three backbones (modular, state-of-the-art VLN with prompt-based
LLM, and state-of-the-art VLN with strided-attention MLLM), Mem4Nav yields 7-13
pp gains in Task Completion, sufficient SPD reduction, and >10 pp nDTW
improvement. Ablations confirm the indispensability of both the hierarchical
map and dual memory modules. Our codes are open-sourced via
https://github.com/tsinghua-fib-lab/Mem4Nav.