Mem4Nav: Verbetering van Visie-en-Taal Navigatie in Stedelijke Omgevingen met een Hiërarchisch Ruimtelijk-Cognitief Lang-Kort Geheugensysteem
Mem4Nav: Boosting Vision-and-Language Navigation in Urban Environments with a Hierarchical Spatial-Cognition Long-Short Memory System
June 24, 2025
Auteurs: Lixuan He, Haoyu Dong, Zhenxing Chen, Yangcheng Yu, Jie Feng, Yong Li
cs.AI
Samenvatting
Vision-and-Language Navigation (VLN) in grootschalige stedelijke omgevingen vereist dat belichaamde agents linguïstische instructies kunnen verankeren in complexe scènes en relevante ervaringen kunnen herinneren over langere tijdsperioden. Eerdere modulaire pipelines bieden interpreteerbaarheid maar missen een verenigd geheugen, terwijl end-to-end (M)LLM-agents uitblinken in het integreren van visie en taal, maar beperkt blijven door vaste contextvensters en impliciete ruimtelijke redenering. Wij introduceren Mem4Nav, een hiërarchisch ruimtelijk-cognitief lang-kort geheugensysteem dat elke VLN-backbone kan versterken. Mem4Nav combineert een sparse octree voor fijnmazige voxelindexering met een semantische topologiegrafiek voor connectiviteit op hoog niveau van herkenningspunten, waarbij beide worden opgeslagen in trainbare geheugentokens die zijn ingebed via een omkeerbare Transformer. Langetermijngeheugen (LTM) comprimeert en behoudt historische observaties op zowel octree- als grafiekniveau, terwijl kortetermijngeheugen (STM) recente multimodale invoer opslaat in relatieve coördinaten voor realtime obstakelvermijding en lokale planning. Bij elke stap verscherpt STM-retrieval de dynamische context, en wanneer diepere geschiedenis nodig is, worden LTM-tokens verliesvrij gedecodeerd om eerdere inbeddingen te reconstrueren. Geëvalueerd op Touchdown en Map2Seq over drie backbones (modulair, state-of-the-art VLN met prompt-gebaseerde LLM, en state-of-the-art VLN met gestreepte-attentie MLLM), levert Mem4Nav 7-13 procentpunt winst op in Taakvoltooiing, voldoende SPD-reductie en >10 procentpunt nDTW-verbetering. Ablaties bevestigen de onmisbaarheid van zowel de hiërarchische kaart als de dubbele geheugenmodules. Onze code is open-source via https://github.com/tsinghua-fib-lab/Mem4Nav.
English
Vision-and-Language Navigation (VLN) in large-scale urban environments
requires embodied agents to ground linguistic instructions in complex scenes
and recall relevant experiences over extended time horizons. Prior modular
pipelines offer interpretability but lack unified memory, while end-to-end
(M)LLM agents excel at fusing vision and language yet remain constrained by
fixed context windows and implicit spatial reasoning. We introduce
Mem4Nav, a hierarchical spatial-cognition long-short memory system
that can augment any VLN backbone. Mem4Nav fuses a sparse octree for
fine-grained voxel indexing with a semantic topology graph for high-level
landmark connectivity, storing both in trainable memory tokens embedded via a
reversible Transformer. Long-term memory (LTM) compresses and retains
historical observations at both octree and graph nodes, while short-term memory
(STM) caches recent multimodal entries in relative coordinates for real-time
obstacle avoidance and local planning. At each step, STM retrieval sharply
prunes dynamic context, and, when deeper history is needed, LTM tokens are
decoded losslessly to reconstruct past embeddings. Evaluated on Touchdown and
Map2Seq across three backbones (modular, state-of-the-art VLN with prompt-based
LLM, and state-of-the-art VLN with strided-attention MLLM), Mem4Nav yields 7-13
pp gains in Task Completion, sufficient SPD reduction, and >10 pp nDTW
improvement. Ablations confirm the indispensability of both the hierarchical
map and dual memory modules. Our codes are open-sourced via
https://github.com/tsinghua-fib-lab/Mem4Nav.