ChatPaper.aiChatPaper

IGL-Nav: 画像目標ナビゲーションのための増分的3Dガウス局所化

IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation

August 1, 2025
著者: Wenxuan Guo, Xiuwei Xu, Hang Yin, Ziwei Wang, Jianjiang Feng, Jie Zhou, Jiwen Lu
cs.AI

要旨

画像を目標とした視覚ナビゲーションは、基本的でありながら困難な問題です。従来の手法は、エンドツーエンドの強化学習(RL)に依存するか、トポロジカルグラフやBEVマップをメモリとして使用するモジュール型ポリシーに基づいており、探索された3D環境と目標画像の間の幾何学的関係を完全にモデル化することができませんでした。3D空間内で目標画像を効率的かつ正確に位置特定するために、私たちはレンダリング可能な3Dガウシアン(3DGS)表現に基づいてナビゲーションシステムを構築しました。しかし、3DGSの最適化が計算集約的であり、6自由度のカメラポーズの探索空間が大きいため、エージェントの探索プロセス中に3DGSを直接利用して画像の位置特定を行うことは非常に非効率的です。この問題を解決するために、私たちはIGL-Navという、効率的で3D認識を備えた画像目標ナビゲーションのための増分的3Dガウシアン位置特定フレームワークを提案します。具体的には、新しい画像が到着するたびに、単眼予測を用いてシーン表現を増分的に更新します。次に、幾何学的情報を活用して離散空間マッチングを行い、目標を大まかに位置特定します。これは、効率的な3D畳み込みと同等です。エージェントが目標に近づいたら、微分可能レンダリングによる最適化を用いて精密なターゲットポーズを最終的に解決します。提案されたIGL-Navは、多様な実験設定において、既存の最先端手法を大幅に上回る性能を示します。また、より困難な自由視点画像目標設定にも対応でき、任意のポーズで目標画像を撮影するためにスマートフォンを使用して実世界のロボットプラットフォームに展開することも可能です。プロジェクトページ: https://gwxuan.github.io/IGL-Nav/。
English
Visual navigation with an image as goal is a fundamental and challenging problem. Conventional methods either rely on end-to-end RL learning or modular-based policy with topological graph or BEV map as memory, which cannot fully model the geometric relationship between the explored 3D environment and the goal image. In order to efficiently and accurately localize the goal image in 3D space, we build our navigation system upon the renderable 3D gaussian (3DGS) representation. However, due to the computational intensity of 3DGS optimization and the large search space of 6-DoF camera pose, directly leveraging 3DGS for image localization during agent exploration process is prohibitively inefficient. To this end, we propose IGL-Nav, an Incremental 3D Gaussian Localization framework for efficient and 3D-aware image-goal navigation. Specifically, we incrementally update the scene representation as new images arrive with feed-forward monocular prediction. Then we coarsely localize the goal by leveraging the geometric information for discrete space matching, which can be equivalent to efficient 3D convolution. When the agent is close to the goal, we finally solve the fine target pose with optimization via differentiable rendering. The proposed IGL-Nav outperforms existing state-of-the-art methods by a large margin across diverse experimental configurations. It can also handle the more challenging free-view image-goal setting and be deployed on real-world robotic platform using a cellphone to capture goal image at arbitrary pose. Project page: https://gwxuan.github.io/IGL-Nav/.
PDF42August 4, 2025