Mem4Nav : Amélioration de la navigation vision-langage en environnements urbains grâce à un système hiérarchique de mémoire à long-court terme avec cognition spatiale
Mem4Nav: Boosting Vision-and-Language Navigation in Urban Environments with a Hierarchical Spatial-Cognition Long-Short Memory System
June 24, 2025
Auteurs: Lixuan He, Haoyu Dong, Zhenxing Chen, Yangcheng Yu, Jie Feng, Yong Li
cs.AI
Résumé
La navigation vision-langage (VLN) dans des environnements urbains à grande échelle exige que les agents incarnés ancrent des instructions linguistiques dans des scènes complexes et se souviennent d'expériences pertinentes sur des horizons temporels étendus. Les pipelines modulaires antérieurs offrent une interprétabilité mais manquent de mémoire unifiée, tandis que les agents (M)LLM de bout en bout excellent dans la fusion de la vision et du langage mais restent limités par des fenêtres de contexte fixes et un raisonnement spatial implicite. Nous présentons Mem4Nav, un système de mémoire hiérarchique à long et court terme pour la cognition spatiale, qui peut enrichir n'importe quelle architecture VLN. Mem4Nav fusionne un octree parcimonieux pour l'indexation fine de voxels avec un graphe topologique sémantique pour la connectivité de points de repère de haut niveau, stockant les deux dans des tokens de mémoire entraînables intégrés via un Transformer réversible. La mémoire à long terme (LTM) compresse et conserve les observations historiques à la fois dans l'octree et les nœuds du graphe, tandis que la mémoire à court terme (STM) met en cache les entrées multimodales récentes en coordonnées relatives pour l'évitement d'obstacles en temps réel et la planification locale. À chaque étape, la récupération de la STM réduit considérablement le contexte dynamique, et, lorsqu'un historique plus profond est nécessaire, les tokens de la LTM sont décodés sans perte pour reconstruire les embeddings passés. Évalué sur Touchdown et Map2Seq avec trois architectures (modulaire, VLN de pointe avec LLM basé sur des prompts, et VLN de pointe avec MLLM à attention étendue), Mem4Nav apporte des gains de 7 à 13 points de pourcentage dans l'achèvement des tâches, une réduction suffisante de la SPD, et une amélioration de plus de 10 points de pourcentage du nDTW. Les ablations confirment l'indispensabilité à la fois de la carte hiérarchique et des modules de mémoire duale. Nos codes sont open-source via https://github.com/tsinghua-fib-lab/Mem4Nav.
English
Vision-and-Language Navigation (VLN) in large-scale urban environments
requires embodied agents to ground linguistic instructions in complex scenes
and recall relevant experiences over extended time horizons. Prior modular
pipelines offer interpretability but lack unified memory, while end-to-end
(M)LLM agents excel at fusing vision and language yet remain constrained by
fixed context windows and implicit spatial reasoning. We introduce
Mem4Nav, a hierarchical spatial-cognition long-short memory system
that can augment any VLN backbone. Mem4Nav fuses a sparse octree for
fine-grained voxel indexing with a semantic topology graph for high-level
landmark connectivity, storing both in trainable memory tokens embedded via a
reversible Transformer. Long-term memory (LTM) compresses and retains
historical observations at both octree and graph nodes, while short-term memory
(STM) caches recent multimodal entries in relative coordinates for real-time
obstacle avoidance and local planning. At each step, STM retrieval sharply
prunes dynamic context, and, when deeper history is needed, LTM tokens are
decoded losslessly to reconstruct past embeddings. Evaluated on Touchdown and
Map2Seq across three backbones (modular, state-of-the-art VLN with prompt-based
LLM, and state-of-the-art VLN with strided-attention MLLM), Mem4Nav yields 7-13
pp gains in Task Completion, sufficient SPD reduction, and >10 pp nDTW
improvement. Ablations confirm the indispensability of both the hierarchical
map and dual memory modules. Our codes are open-sourced via
https://github.com/tsinghua-fib-lab/Mem4Nav.