ChatPaper.aiChatPaper

Mem4Nav: Aprimorando a Navegação Visão-e-Linguagem em Ambientes Urbanos com um Sistema Hierárquico de Memória de Longo-Curto Prazo com Cognição Espacial

Mem4Nav: Boosting Vision-and-Language Navigation in Urban Environments with a Hierarchical Spatial-Cognition Long-Short Memory System

June 24, 2025
Autores: Lixuan He, Haoyu Dong, Zhenxing Chen, Yangcheng Yu, Jie Feng, Yong Li
cs.AI

Resumo

A Navegação Visão-e-Linguagem (VLN) em ambientes urbanos de grande escala exige que agentes incorporados fundamentem instruções linguísticas em cenas complexas e recordem experiências relevantes ao longo de horizontes temporais extendidos. Pipelines modulares anteriores oferecem interpretabilidade, mas carecem de memória unificada, enquanto agentes (M)LLM end-to-end se destacam na fusão de visão e linguagem, mas permanecem limitados por janelas de contexto fixas e raciocínio espacial implícito. Apresentamos o Mem4Nav, um sistema hierárquico de memória de longo e curto prazo para cognição espacial que pode ser integrado a qualquer backbone de VLN. O Mem4Nav combina uma octree esparsa para indexação de voxels de alta granularidade com um grafo topológico semântico para conectividade de pontos de referência de alto nível, armazenando ambos em tokens de memória treináveis incorporados via um Transformer reversível. A memória de longo prazo (LTM) comprime e retém observações históricas tanto na octree quanto nos nós do grafo, enquanto a memória de curto prazo (STM) armazena entradas multimodais recentes em coordenadas relativas para evitar obstáculos em tempo real e planejamento local. A cada passo, a recuperação da STM reduz drasticamente o contexto dinâmico, e, quando é necessário um histórico mais profundo, os tokens da LTM são decodificados sem perdas para reconstruir embeddings passados. Avaliado no Touchdown e no Map2Seq em três backbones (modular, VLN state-of-the-art com LLM baseado em prompt e VLN state-of-the-art com MLLM de atenção escalonada), o Mem4Nav obteve ganhos de 7-13 pp na Conclusão da Tarefa, redução suficiente de SPD e melhoria de >10 pp no nDTW. Ablações confirmam a indispensabilidade tanto do mapa hierárquico quanto dos módulos de memória dupla. Nossos códigos estão disponíveis em https://github.com/tsinghua-fib-lab/Mem4Nav.
English
Vision-and-Language Navigation (VLN) in large-scale urban environments requires embodied agents to ground linguistic instructions in complex scenes and recall relevant experiences over extended time horizons. Prior modular pipelines offer interpretability but lack unified memory, while end-to-end (M)LLM agents excel at fusing vision and language yet remain constrained by fixed context windows and implicit spatial reasoning. We introduce Mem4Nav, a hierarchical spatial-cognition long-short memory system that can augment any VLN backbone. Mem4Nav fuses a sparse octree for fine-grained voxel indexing with a semantic topology graph for high-level landmark connectivity, storing both in trainable memory tokens embedded via a reversible Transformer. Long-term memory (LTM) compresses and retains historical observations at both octree and graph nodes, while short-term memory (STM) caches recent multimodal entries in relative coordinates for real-time obstacle avoidance and local planning. At each step, STM retrieval sharply prunes dynamic context, and, when deeper history is needed, LTM tokens are decoded losslessly to reconstruct past embeddings. Evaluated on Touchdown and Map2Seq across three backbones (modular, state-of-the-art VLN with prompt-based LLM, and state-of-the-art VLN with strided-attention MLLM), Mem4Nav yields 7-13 pp gains in Task Completion, sufficient SPD reduction, and >10 pp nDTW improvement. Ablations confirm the indispensability of both the hierarchical map and dual memory modules. Our codes are open-sourced via https://github.com/tsinghua-fib-lab/Mem4Nav.
PDF31June 25, 2025