IGL-Nav : Localisation incrémentale par Gaussiennes 3D pour la navigation vers un objectif visuel
IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation
August 1, 2025
papers.authors: Wenxuan Guo, Xiuwei Xu, Hang Yin, Ziwei Wang, Jianjiang Feng, Jie Zhou, Jiwen Lu
cs.AI
papers.abstract
La navigation visuelle avec une image comme objectif constitue un problème fondamental et complexe. Les méthodes conventionnelles reposent soit sur un apprentissage par renforcement de bout en bout, soit sur une politique modulaire utilisant un graphe topologique ou une carte BEV comme mémoire, ce qui ne permet pas de modéliser pleinement la relation géométrique entre l'environnement 3D exploré et l'image objectif. Pour localiser efficacement et précisément l'image objectif dans l'espace 3D, nous construisons notre système de navigation sur la base de la représentation 3D gaussienne rendue (3DGS). Cependant, en raison de l'intensité computationnelle de l'optimisation 3DGS et de l'espace de recherche important de la pose de la caméra à 6 degrés de liberté, l'utilisation directe de la 3DGS pour la localisation d'image pendant le processus d'exploration de l'agent est excessivement inefficace. Pour cela, nous proposons IGL-Nav, un cadre de localisation incrémentale 3D gaussienne pour une navigation efficace et consciente de la 3D avec une image objectif. Plus précisément, nous mettons à jour de manière incrémentale la représentation de la scène à mesure que de nouvelles images arrivent, grâce à une prédiction monoculaire en avant. Ensuite, nous localisons grossièrement l'objectif en exploitant les informations géométriques pour un appariement d'espace discret, ce qui peut être équivalent à une convolution 3D efficace. Lorsque l'agent est proche de l'objectif, nous résolvons finalement la pose fine de la cible par optimisation via un rendu différentiable. Le IGL-Nav proposé surpasse les méthodes état de l'art existantes avec une marge importante dans diverses configurations expérimentales. Il peut également gérer le cadre plus complexe de l'image objectif en vue libre et être déployé sur une plateforme robotique réelle en utilisant un téléphone portable pour capturer l'image objectif à une pose arbitraire. Page du projet : https://gwxuan.github.io/IGL-Nav/.
English
Visual navigation with an image as goal is a fundamental and challenging
problem. Conventional methods either rely on end-to-end RL learning or
modular-based policy with topological graph or BEV map as memory, which cannot
fully model the geometric relationship between the explored 3D environment and
the goal image. In order to efficiently and accurately localize the goal image
in 3D space, we build our navigation system upon the renderable 3D gaussian
(3DGS) representation. However, due to the computational intensity of 3DGS
optimization and the large search space of 6-DoF camera pose, directly
leveraging 3DGS for image localization during agent exploration process is
prohibitively inefficient. To this end, we propose IGL-Nav, an Incremental 3D
Gaussian Localization framework for efficient and 3D-aware image-goal
navigation. Specifically, we incrementally update the scene representation as
new images arrive with feed-forward monocular prediction. Then we coarsely
localize the goal by leveraging the geometric information for discrete space
matching, which can be equivalent to efficient 3D convolution. When the agent
is close to the goal, we finally solve the fine target pose with optimization
via differentiable rendering. The proposed IGL-Nav outperforms existing
state-of-the-art methods by a large margin across diverse experimental
configurations. It can also handle the more challenging free-view image-goal
setting and be deployed on real-world robotic platform using a cellphone to
capture goal image at arbitrary pose. Project page:
https://gwxuan.github.io/IGL-Nav/.