ChatPaper.aiChatPaper

MG-Nav: 희소 공간 메모리 기반 이중 규모 시각 항법

MG-Nav: Dual-Scale Visual Navigation via Sparse Spatial Memory

November 27, 2025
저자: Bo Wang, Jiehong Lin, Chenzhi Liu, Xinting Hu, Yifei Yu, Tianjia Liu, Zhongrui Wang, Xiaojuan Qi
cs.AI

초록

본 논문에서는 전역 메모리 기반 경로 계획과 지역 기하학적 제어를 통합한 제로샷 시각 항법을 위한 이중 스케일 프레임워크인 MG-Nav(Memory-Guided Navigation)를 제안한다. 핵심에는 스파스 공간 메모리 그래프(SMG)가 있으며, 이는 컴팩트하고 지역 중심적인 메모리로 각 노드는 다중 뷰 키프레임과 객체 의미를 집약하여 외관과 공간 구조를 동시에 포착하면서 시점 다양성을 보존한다. 전역 수준에서는 에이전트를 SMG 상에 위치시킨 후 이미지-인스턴스 혼합 검색을 통해 목표 조건부 노드 경로를 계획하여 장기적 안내를 위한 도달 가능한 웨이포인트 시퀀스를 생성한다. 지역 수준에서는 항법 기초 정책이 장애물 인식 제어와 함께 포인트 목표 모드로 이러한 웨이포인트를 실행하며, 최종 노드에서 시각적 목표로 이동할 때는 이미지 목표 모드로 전환한다. 시점 정렬 및 목표 인식 향상을 위해 사전 학습된 VGGT 모델 기반의 경량 기하학적 모듈인 VGGT-adapter를 도입하여 관측 특징과 목표 특징을 공유 3D 인식 공간에서 정렬한다. MG-Nav는 주기적 재위치 지정을 통해 오류를 수정하며 서로 다른 주기로 전역 계획과 지역 제어를 운영한다. HM3D Instance-Image-Goal 및 MP3D Image-Goal 벤치마크에서의 실험 결과, MG-Nav는 최첨단 제로샷 성능을 달성하며 동적 재배치 및 보이지 않는 장면 조건에서도 견고함을 유지함을 입증하였다.
English
We present MG-Nav (Memory-Guided Navigation), a dual-scale framework for zero-shot visual navigation that unifies global memory-guided planning with local geometry-enhanced control. At its core is the Sparse Spatial Memory Graph (SMG), a compact, region-centric memory where each node aggregates multi-view keyframe and object semantics, capturing both appearance and spatial structure while preserving viewpoint diversity. At the global level, the agent is localized on SMG and a goal-conditioned node path is planned via an image-to-instance hybrid retrieval, producing a sequence of reachable waypoints for long-horizon guidance. At the local level, a navigation foundation policy executes these waypoints in point-goal mode with obstacle-aware control, and switches to image-goal mode when navigating from the final node towards the visual target. To further enhance viewpoint alignment and goal recognition, we introduce VGGT-adapter, a lightweight geometric module built on the pre-trained VGGT model, which aligns observation and goal features in a shared 3D-aware space. MG-Nav operates global planning and local control at different frequencies, using periodic re-localization to correct errors. Experiments on HM3D Instance-Image-Goal and MP3D Image-Goal benchmarks demonstrate that MG-Nav achieves state-of-the-art zero-shot performance and remains robust under dynamic rearrangements and unseen scene conditions.
PDF441December 4, 2025