ChatPaper.aiChatPaper

MG-Nav: Navegación Visual a Doble Escala mediante Memoria Espacial Dispersa

MG-Nav: Dual-Scale Visual Navigation via Sparse Spatial Memory

November 27, 2025
Autores: Bo Wang, Jiehong Lin, Chenzhi Liu, Xinting Hu, Yifei Yu, Tianjia Liu, Zhongrui Wang, Xiaojuan Qi
cs.AI

Resumen

Presentamos MG-Nav (Navegación Guiada por Memoria), un marco de trabajo de doble escala para navegación visual *zero-shot* que unifica la planificación global guiada por memoria con el control local mejorado por geometría. Su núcleo es el Grafo de Memoria Espacial Dispersa (SMG), una memoria compacta y céntrica en regiones donde cada nodo agrega semántica de *keyframes* multi-vista y de objetos, capturando tanto la apariencia como la estructura espacial mientras preserva la diversidad de puntos de vista. A nivel global, el agente se localiza en el SMG y se planifica una ruta de nodos condicionada por el objetivo mediante una recuperación híbrida de imagen a instancia, produciendo una secuencia de puntos de referencia alcanzables para una guía de largo horizonte. A nivel local, una política de navegación base ejecuta estos puntos de referencia en modo de objetivo puntual con control consciente de obstáculos, y cambia al modo de objetivo visual al navegar desde el nodo final hacia el objetivo visual. Para mejorar aún más la alineación de puntos de vista y el reconocimiento de objetivos, introducimos VGGT-adapter, un módulo geométrico ligero construido sobre el modelo VGGT preentrenado, que alinea las características de la observación y del objetivo en un espacio compartido consciente de la 3D. MG-Nav opera la planificación global y el control local a diferentes frecuencias, utilizando una relocalización periódica para corregir errores. Los experimentos en los puntos de referencia HM3D Instance-Image-Goal y MP3D Image-Goal demuestran que MG-Nav logra un rendimiento *zero-shot* de vanguardia y se mantiene robusto bajo reordenamientos dinámicos y condiciones de escena no vistas.
English
We present MG-Nav (Memory-Guided Navigation), a dual-scale framework for zero-shot visual navigation that unifies global memory-guided planning with local geometry-enhanced control. At its core is the Sparse Spatial Memory Graph (SMG), a compact, region-centric memory where each node aggregates multi-view keyframe and object semantics, capturing both appearance and spatial structure while preserving viewpoint diversity. At the global level, the agent is localized on SMG and a goal-conditioned node path is planned via an image-to-instance hybrid retrieval, producing a sequence of reachable waypoints for long-horizon guidance. At the local level, a navigation foundation policy executes these waypoints in point-goal mode with obstacle-aware control, and switches to image-goal mode when navigating from the final node towards the visual target. To further enhance viewpoint alignment and goal recognition, we introduce VGGT-adapter, a lightweight geometric module built on the pre-trained VGGT model, which aligns observation and goal features in a shared 3D-aware space. MG-Nav operates global planning and local control at different frequencies, using periodic re-localization to correct errors. Experiments on HM3D Instance-Image-Goal and MP3D Image-Goal benchmarks demonstrate that MG-Nav achieves state-of-the-art zero-shot performance and remains robust under dynamic rearrangements and unseen scene conditions.
PDF441December 4, 2025