ChatPaper.aiChatPaper

MG-Nav: Visuelle Navigation mittels dualskaliger Ansätze und räumlichem Gedächtnis mit spärlicher Repräsentation

MG-Nav: Dual-Scale Visual Navigation via Sparse Spatial Memory

November 27, 2025
papers.authors: Bo Wang, Jiehong Lin, Chenzhi Liu, Xinting Hu, Yifei Yu, Tianjia Liu, Zhongrui Wang, Xiaojuan Qi
cs.AI

papers.abstract

Wir stellen MG-Nav (Memory-Guided Navigation) vor, ein dualskaliges Framework für null-shot visuelle Navigation, das globale, speichergeführte Planung mit lokaler, geometrie-verstärkter Steuerung vereint. Sein Kernstück ist der Sparse Spatial Memory Graph (SMG), ein kompaktes, regionszentriertes Gedächtnis, in dem jeder Knoten Multi-View-Keyframe- und Objektsemantiken aggregiert und sowohl Erscheinungsbild als auch räumliche Struktur erfasst, während die Blickpunktvielfalt erhalten bleibt. Auf globaler Ebene wird der Agent im SMG lokalisiert und ein zielbedingter Knotenpfad wird über eine hybride Bild-zu-Instanz-Retrieval geplant, wodurch eine Sequenz erreichbarer Wegpunkte für die Langzeitanleitung erzeugt wird. Auf lokaler Ebene führt eine Navigations-Basispolitik diese Wegpunkte im Punktziel-Modus mit hindernisbewusster Steuerung aus und wechselt in den Bildziel-Modus, wenn von dem finalen Knoten zum visuellen Ziel navigiert wird. Um die Blickpunktausrichtung und Zielerkennung weiter zu verbessern, führen wir den VGGT-Adapter ein, ein leichtgewichtiges geometrisches Modul, das auf dem vortrainierten VGGT-Modell aufbaut und Beobachtungs- und Zielmerkmale in einem gemeinsamen 3D-bewussten Raum ausrichtet. MG-Nav betreibt globale Planung und lokale Steuerung mit unterschiedlichen Frequenzen und nutzt periodische Re-Lokalisierung zur Fehlerkorrektur. Experimente auf den HM3D Instance-Image-Goal- und MP3D Image-Goal-Benchmarks zeigen, dass MG-Nav state-of-the-art Null-Shot-Leistung erreicht und unter dynamischen Umordnungen und ungesehenen Szenenbedingungen robust bleibt.
English
We present MG-Nav (Memory-Guided Navigation), a dual-scale framework for zero-shot visual navigation that unifies global memory-guided planning with local geometry-enhanced control. At its core is the Sparse Spatial Memory Graph (SMG), a compact, region-centric memory where each node aggregates multi-view keyframe and object semantics, capturing both appearance and spatial structure while preserving viewpoint diversity. At the global level, the agent is localized on SMG and a goal-conditioned node path is planned via an image-to-instance hybrid retrieval, producing a sequence of reachable waypoints for long-horizon guidance. At the local level, a navigation foundation policy executes these waypoints in point-goal mode with obstacle-aware control, and switches to image-goal mode when navigating from the final node towards the visual target. To further enhance viewpoint alignment and goal recognition, we introduce VGGT-adapter, a lightweight geometric module built on the pre-trained VGGT model, which aligns observation and goal features in a shared 3D-aware space. MG-Nav operates global planning and local control at different frequencies, using periodic re-localization to correct errors. Experiments on HM3D Instance-Image-Goal and MP3D Image-Goal benchmarks demonstrate that MG-Nav achieves state-of-the-art zero-shot performance and remains robust under dynamic rearrangements and unseen scene conditions.
PDF441December 4, 2025