ChatPaper.aiChatPaper

MG-Nav : Navigation Visuelle à Double Échelle via une Mémoire Spatiale Éparse

MG-Nav: Dual-Scale Visual Navigation via Sparse Spatial Memory

November 27, 2025
papers.authors: Bo Wang, Jiehong Lin, Chenzhi Liu, Xinting Hu, Yifei Yu, Tianjia Liu, Zhongrui Wang, Xiaojuan Qi
cs.AI

papers.abstract

Nous présentons MG-Nav (Navigation Guidée par la Mémoire), un cadre à double échelle pour la navigation visuelle zero-shot qui unifie une planification globale guidée par la mémoire avec un contrôle local amélioré par la géométrie. Son cœur est le Graphe de Mémoire Spatiale Éparse (SMG), une mémoire compacte et centrée sur les régions où chaque nœud agrège des keyframes multi-vues et une sémantique d'objets, capturant à la fois l'apparence et la structure spatiale tout en préservant la diversité des points de vue. Au niveau global, l'agent est localisé sur le SMG et un chemin de nœuds conditionné par l'objectif est planifié via une récupération hybride image-instance, produisant une séquence de points de passage atteignables pour un guidé à long terme. Au niveau local, une politique de fondation de navigation exécute ces points de passage en mode point-cible avec un contrôle prenant en compte les obstacles, et passe en mode image-cible lors de la navigation du nœud final vers la cible visuelle. Pour améliorer davantage l'alignement des points de vue et la reconnaissance des objectifs, nous introduisons le VGGT-adapter, un module géométrique léger construit sur le modèle VGGT pré-entraîné, qui aligne les caractéristiques de l'observation et de l'objectif dans un espace partagé conscient de la 3D. MG-Nav opère la planification globale et le contrôle local à différentes fréquences, en utilisant une re-localisation périodique pour corriger les erreurs. Les expériences sur les benchmarks HM3D Instance-Image-Goal et MP3D Image-Goal démontrent que MG-Nav atteint des performances zero-shot de pointe et reste robuste sous des réaménagements dynamiques et des conditions de scène non vues.
English
We present MG-Nav (Memory-Guided Navigation), a dual-scale framework for zero-shot visual navigation that unifies global memory-guided planning with local geometry-enhanced control. At its core is the Sparse Spatial Memory Graph (SMG), a compact, region-centric memory where each node aggregates multi-view keyframe and object semantics, capturing both appearance and spatial structure while preserving viewpoint diversity. At the global level, the agent is localized on SMG and a goal-conditioned node path is planned via an image-to-instance hybrid retrieval, producing a sequence of reachable waypoints for long-horizon guidance. At the local level, a navigation foundation policy executes these waypoints in point-goal mode with obstacle-aware control, and switches to image-goal mode when navigating from the final node towards the visual target. To further enhance viewpoint alignment and goal recognition, we introduce VGGT-adapter, a lightweight geometric module built on the pre-trained VGGT model, which aligns observation and goal features in a shared 3D-aware space. MG-Nav operates global planning and local control at different frequencies, using periodic re-localization to correct errors. Experiments on HM3D Instance-Image-Goal and MP3D Image-Goal benchmarks demonstrate that MG-Nav achieves state-of-the-art zero-shot performance and remains robust under dynamic rearrangements and unseen scene conditions.
PDF441December 4, 2025