IGL-Nav: Incrementele 3D Gaussische Localisatie voor Beeldgestuurde Navigatie
IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation
August 1, 2025
Auteurs: Wenxuan Guo, Xiuwei Xu, Hang Yin, Ziwei Wang, Jianjiang Feng, Jie Zhou, Jiwen Lu
cs.AI
Samenvatting
Visuele navigatie met een afbeelding als doel is een fundamenteel en uitdagend probleem. Conventionele methoden vertrouwen ofwel op end-to-end RL-leren of op een modulair beleid met een topologische grafiek of BEV-kaart als geheugen, wat de geometrische relatie tussen de verkende 3D-omgeving en de doelafbeelding niet volledig kan modelleren. Om de doelafbeelding efficiënt en nauwkeurig in de 3D-ruimte te lokaliseren, bouwen we ons navigatiesysteem op basis van de renderbare 3D Gaussiaanse (3DGS) representatie. Echter, vanwege de rekenintensiteit van 3DGS-optimalisatie en de grote zoekruimte van de 6-DoF camerapositie, is het direct benutten van 3DGS voor beeldlokalisatie tijdens het verkenningsproces van de agent onhaalbaar inefficiënt. Daarom stellen we IGL-Nav voor, een Incrementeel 3D Gaussiaans Lokalisatiekader voor efficiënte en 3D-bewuste beelddoelnavigatie. Specifiek werken we de scène-representatie incrementeel bij naarmate nieuwe afbeeldingen binnenkomen met een feed-forward monocular voorspelling. Vervolgens lokaliseren we het doel grofweg door gebruik te maken van geometrische informatie voor discrete ruimtematchen, wat gelijk kan worden gesteld aan efficiënte 3D-convolutie. Wanneer de agent dicht bij het doel is, lossen we uiteindelijk de fijne doelpositie op via optimalisatie met differentieerbaar renderen. Het voorgestelde IGL-Nav overtreft bestaande state-of-the-art methoden met een grote marge in diverse experimentele configuraties. Het kan ook de uitdagendere free-view beelddoelinstelling aan en kan worden ingezet op een real-world robotplatform met behulp van een mobiele telefoon om de doelafbeelding vanuit een willekeurige positie vast te leggen. Projectpagina: https://gwxuan.github.io/IGL-Nav/.
English
Visual navigation with an image as goal is a fundamental and challenging
problem. Conventional methods either rely on end-to-end RL learning or
modular-based policy with topological graph or BEV map as memory, which cannot
fully model the geometric relationship between the explored 3D environment and
the goal image. In order to efficiently and accurately localize the goal image
in 3D space, we build our navigation system upon the renderable 3D gaussian
(3DGS) representation. However, due to the computational intensity of 3DGS
optimization and the large search space of 6-DoF camera pose, directly
leveraging 3DGS for image localization during agent exploration process is
prohibitively inefficient. To this end, we propose IGL-Nav, an Incremental 3D
Gaussian Localization framework for efficient and 3D-aware image-goal
navigation. Specifically, we incrementally update the scene representation as
new images arrive with feed-forward monocular prediction. Then we coarsely
localize the goal by leveraging the geometric information for discrete space
matching, which can be equivalent to efficient 3D convolution. When the agent
is close to the goal, we finally solve the fine target pose with optimization
via differentiable rendering. The proposed IGL-Nav outperforms existing
state-of-the-art methods by a large margin across diverse experimental
configurations. It can also handle the more challenging free-view image-goal
setting and be deployed on real-world robotic platform using a cellphone to
capture goal image at arbitrary pose. Project page:
https://gwxuan.github.io/IGL-Nav/.