ChatPaper.aiChatPaper

IGL-Nav : Localisation incrémentale par Gaussiennes 3D pour la navigation vers un objectif visuel

IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation

August 1, 2025
papers.authors: Wenxuan Guo, Xiuwei Xu, Hang Yin, Ziwei Wang, Jianjiang Feng, Jie Zhou, Jiwen Lu
cs.AI

papers.abstract

La navigation visuelle avec une image comme objectif constitue un problème fondamental et complexe. Les méthodes conventionnelles reposent soit sur un apprentissage par renforcement de bout en bout, soit sur une politique modulaire utilisant un graphe topologique ou une carte BEV comme mémoire, ce qui ne permet pas de modéliser pleinement la relation géométrique entre l'environnement 3D exploré et l'image objectif. Pour localiser efficacement et précisément l'image objectif dans l'espace 3D, nous construisons notre système de navigation sur la base de la représentation 3D gaussienne rendue (3DGS). Cependant, en raison de l'intensité computationnelle de l'optimisation 3DGS et de l'espace de recherche important de la pose de la caméra à 6 degrés de liberté, l'utilisation directe de la 3DGS pour la localisation d'image pendant le processus d'exploration de l'agent est excessivement inefficace. Pour cela, nous proposons IGL-Nav, un cadre de localisation incrémentale 3D gaussienne pour une navigation efficace et consciente de la 3D avec une image objectif. Plus précisément, nous mettons à jour de manière incrémentale la représentation de la scène à mesure que de nouvelles images arrivent, grâce à une prédiction monoculaire en avant. Ensuite, nous localisons grossièrement l'objectif en exploitant les informations géométriques pour un appariement d'espace discret, ce qui peut être équivalent à une convolution 3D efficace. Lorsque l'agent est proche de l'objectif, nous résolvons finalement la pose fine de la cible par optimisation via un rendu différentiable. Le IGL-Nav proposé surpasse les méthodes état de l'art existantes avec une marge importante dans diverses configurations expérimentales. Il peut également gérer le cadre plus complexe de l'image objectif en vue libre et être déployé sur une plateforme robotique réelle en utilisant un téléphone portable pour capturer l'image objectif à une pose arbitraire. Page du projet : https://gwxuan.github.io/IGL-Nav/.
English
Visual navigation with an image as goal is a fundamental and challenging problem. Conventional methods either rely on end-to-end RL learning or modular-based policy with topological graph or BEV map as memory, which cannot fully model the geometric relationship between the explored 3D environment and the goal image. In order to efficiently and accurately localize the goal image in 3D space, we build our navigation system upon the renderable 3D gaussian (3DGS) representation. However, due to the computational intensity of 3DGS optimization and the large search space of 6-DoF camera pose, directly leveraging 3DGS for image localization during agent exploration process is prohibitively inefficient. To this end, we propose IGL-Nav, an Incremental 3D Gaussian Localization framework for efficient and 3D-aware image-goal navigation. Specifically, we incrementally update the scene representation as new images arrive with feed-forward monocular prediction. Then we coarsely localize the goal by leveraging the geometric information for discrete space matching, which can be equivalent to efficient 3D convolution. When the agent is close to the goal, we finally solve the fine target pose with optimization via differentiable rendering. The proposed IGL-Nav outperforms existing state-of-the-art methods by a large margin across diverse experimental configurations. It can also handle the more challenging free-view image-goal setting and be deployed on real-world robotic platform using a cellphone to capture goal image at arbitrary pose. Project page: https://gwxuan.github.io/IGL-Nav/.
PDF42August 4, 2025