Mem4Nav: Улучшение навигации с использованием зрения и языка в городских условиях с помощью иерархической системы пространственного познания на основе долгосрочной и краткосрочной памяти
Mem4Nav: Boosting Vision-and-Language Navigation in Urban Environments with a Hierarchical Spatial-Cognition Long-Short Memory System
June 24, 2025
Авторы: Lixuan He, Haoyu Dong, Zhenxing Chen, Yangcheng Yu, Jie Feng, Yong Li
cs.AI
Аннотация
Навигация на основе зрения и языка (Vision-and-Language Navigation, VLN) в крупномасштабных городских средах требует от воплощенных агентов способности связывать лингвистические инструкции с комплексными сценами и воспроизводить релевантный опыт на протяжении длительных временных интервалов. Предыдущие модульные подходы обеспечивают интерпретируемость, но страдают от отсутствия единой памяти, в то время как сквозные агенты на основе (мультимодальных) языковых моделей (MLLM) преуспевают в объединении зрения и языка, но ограничены фиксированными контекстными окнами и неявным пространственным рассуждением. Мы представляем Mem4Nav — иерархическую систему пространственного познания с долгосрочной и краткосрочной памятью, которая может быть интегрирована в любой базовый VLN-алгоритм. Mem4Nav объединяет разреженную октодеревь для детального воксельного индексирования с семантическим топологическим графом для связи ключевых ориентиров высокого уровня, сохраняя оба компонента в обучаемых токенах памяти, встроенных через обратимый трансформер. Долгосрочная память (LTM) сжимает и сохраняет исторические наблюдения как на уровне октодерева, так и на узлах графа, в то время как краткосрочная память (STM) кэширует недавние мультимодальные данные в относительных координатах для избегания препятствий и локального планирования в реальном времени. На каждом шаге извлечение из STM значительно сокращает динамический контекст, а при необходимости более глубокой истории токены LTM декодируются без потерь для восстановления прошлых вложений. Оценка на наборах данных Touchdown и Map2Seq с использованием трех базовых архитектур (модульной, современной VLN с LLM на основе подсказок и современной VLN с MLLM с шаговым вниманием) показала, что Mem4Nav обеспечивает улучшение на 7–13 процентных пунктов (pp) в показателе завершения задачи, достаточное снижение SPD и увеличение nDTW более чем на 10 pp. Абляционные исследования подтверждают незаменимость как иерархической карты, так и двойных модулей памяти. Наш код доступен по адресу https://github.com/tsinghua-fib-lab/Mem4Nav.
English
Vision-and-Language Navigation (VLN) in large-scale urban environments
requires embodied agents to ground linguistic instructions in complex scenes
and recall relevant experiences over extended time horizons. Prior modular
pipelines offer interpretability but lack unified memory, while end-to-end
(M)LLM agents excel at fusing vision and language yet remain constrained by
fixed context windows and implicit spatial reasoning. We introduce
Mem4Nav, a hierarchical spatial-cognition long-short memory system
that can augment any VLN backbone. Mem4Nav fuses a sparse octree for
fine-grained voxel indexing with a semantic topology graph for high-level
landmark connectivity, storing both in trainable memory tokens embedded via a
reversible Transformer. Long-term memory (LTM) compresses and retains
historical observations at both octree and graph nodes, while short-term memory
(STM) caches recent multimodal entries in relative coordinates for real-time
obstacle avoidance and local planning. At each step, STM retrieval sharply
prunes dynamic context, and, when deeper history is needed, LTM tokens are
decoded losslessly to reconstruct past embeddings. Evaluated on Touchdown and
Map2Seq across three backbones (modular, state-of-the-art VLN with prompt-based
LLM, and state-of-the-art VLN with strided-attention MLLM), Mem4Nav yields 7-13
pp gains in Task Completion, sufficient SPD reduction, and >10 pp nDTW
improvement. Ablations confirm the indispensability of both the hierarchical
map and dual memory modules. Our codes are open-sourced via
https://github.com/tsinghua-fib-lab/Mem4Nav.