Mem4Nav: Potenziamento della Navigazione Visiva e Linguistica in Ambienti Urbani con un Sistema di Memoria a Lungo-Corto Termine con Cognizione Spaziale Gerarchica
Mem4Nav: Boosting Vision-and-Language Navigation in Urban Environments with a Hierarchical Spatial-Cognition Long-Short Memory System
June 24, 2025
Autori: Lixuan He, Haoyu Dong, Zhenxing Chen, Yangcheng Yu, Jie Feng, Yong Li
cs.AI
Abstract
La Navigazione Visivo-Linguistica (VLN) in ambienti urbani su larga scala richiede che agenti incarnati ancorino istruzioni linguistiche a scene complesse e richiamino esperienze rilevanti su orizzonti temporali estesi. Le pipeline modulari precedenti offrono interpretabilità ma mancano di una memoria unificata, mentre gli agenti end-to-end (M)LLM eccellono nel fondere visione e linguaggio ma rimangono limitati da finestre di contesto fisse e ragionamento spaziale implicito. Introduciamo Mem4Nav, un sistema di memoria a lungo e breve termine gerarchico per la cognizione spaziale che può potenziare qualsiasi backbone VLN. Mem4Nav combina un octree sparso per l'indicizzazione fine di voxel con un grafo topologico semantico per la connettività di landmark di alto livello, memorizzando entrambi in token di memoria addestrabili incorporati tramite un Transformer reversibile. La memoria a lungo termine (LTM) comprime e conserva osservazioni storiche sia nei nodi dell'octree che del grafo, mentre la memoria a breve termine (STM) memorizza in cache voci multimodali recenti in coordinate relative per l'evitamento di ostacoli in tempo reale e la pianificazione locale. Ad ogni passo, il recupero della STM riduce drasticamente il contesto dinamico e, quando è necessario un contesto storico più profondo, i token LTM vengono decodificati senza perdita per ricostruire gli embedding passati. Valutato su Touchdown e Map2Seq su tre backbone (modulare, VLN all'avanguardia con LLM basato su prompt e VLN all'avanguardia con MLLM a attenzione stridificata), Mem4Nav produce guadagni del 7-13 pp nel Completamento del Compito, una riduzione sufficiente della SPD e un miglioramento >10 pp nel nDTW. Le ablazioni confermano l'indispensabilità sia della mappa gerarchica che dei moduli di memoria duali. I nostri codici sono open-source su https://github.com/tsinghua-fib-lab/Mem4Nav.
English
Vision-and-Language Navigation (VLN) in large-scale urban environments
requires embodied agents to ground linguistic instructions in complex scenes
and recall relevant experiences over extended time horizons. Prior modular
pipelines offer interpretability but lack unified memory, while end-to-end
(M)LLM agents excel at fusing vision and language yet remain constrained by
fixed context windows and implicit spatial reasoning. We introduce
Mem4Nav, a hierarchical spatial-cognition long-short memory system
that can augment any VLN backbone. Mem4Nav fuses a sparse octree for
fine-grained voxel indexing with a semantic topology graph for high-level
landmark connectivity, storing both in trainable memory tokens embedded via a
reversible Transformer. Long-term memory (LTM) compresses and retains
historical observations at both octree and graph nodes, while short-term memory
(STM) caches recent multimodal entries in relative coordinates for real-time
obstacle avoidance and local planning. At each step, STM retrieval sharply
prunes dynamic context, and, when deeper history is needed, LTM tokens are
decoded losslessly to reconstruct past embeddings. Evaluated on Touchdown and
Map2Seq across three backbones (modular, state-of-the-art VLN with prompt-based
LLM, and state-of-the-art VLN with strided-attention MLLM), Mem4Nav yields 7-13
pp gains in Task Completion, sufficient SPD reduction, and >10 pp nDTW
improvement. Ablations confirm the indispensability of both the hierarchical
map and dual memory modules. Our codes are open-sourced via
https://github.com/tsinghua-fib-lab/Mem4Nav.