IGL-Nav: 画像目標ナビゲーションのための増分的3Dガウス局所化
IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation
August 1, 2025
著者: Wenxuan Guo, Xiuwei Xu, Hang Yin, Ziwei Wang, Jianjiang Feng, Jie Zhou, Jiwen Lu
cs.AI
要旨
画像を目標とした視覚ナビゲーションは、基本的でありながら困難な問題です。従来の手法は、エンドツーエンドの強化学習(RL)に依存するか、トポロジカルグラフやBEVマップをメモリとして使用するモジュール型ポリシーに基づいており、探索された3D環境と目標画像の間の幾何学的関係を完全にモデル化することができませんでした。3D空間内で目標画像を効率的かつ正確に位置特定するために、私たちはレンダリング可能な3Dガウシアン(3DGS)表現に基づいてナビゲーションシステムを構築しました。しかし、3DGSの最適化が計算集約的であり、6自由度のカメラポーズの探索空間が大きいため、エージェントの探索プロセス中に3DGSを直接利用して画像の位置特定を行うことは非常に非効率的です。この問題を解決するために、私たちはIGL-Navという、効率的で3D認識を備えた画像目標ナビゲーションのための増分的3Dガウシアン位置特定フレームワークを提案します。具体的には、新しい画像が到着するたびに、単眼予測を用いてシーン表現を増分的に更新します。次に、幾何学的情報を活用して離散空間マッチングを行い、目標を大まかに位置特定します。これは、効率的な3D畳み込みと同等です。エージェントが目標に近づいたら、微分可能レンダリングによる最適化を用いて精密なターゲットポーズを最終的に解決します。提案されたIGL-Navは、多様な実験設定において、既存の最先端手法を大幅に上回る性能を示します。また、より困難な自由視点画像目標設定にも対応でき、任意のポーズで目標画像を撮影するためにスマートフォンを使用して実世界のロボットプラットフォームに展開することも可能です。プロジェクトページ: https://gwxuan.github.io/IGL-Nav/。
English
Visual navigation with an image as goal is a fundamental and challenging
problem. Conventional methods either rely on end-to-end RL learning or
modular-based policy with topological graph or BEV map as memory, which cannot
fully model the geometric relationship between the explored 3D environment and
the goal image. In order to efficiently and accurately localize the goal image
in 3D space, we build our navigation system upon the renderable 3D gaussian
(3DGS) representation. However, due to the computational intensity of 3DGS
optimization and the large search space of 6-DoF camera pose, directly
leveraging 3DGS for image localization during agent exploration process is
prohibitively inefficient. To this end, we propose IGL-Nav, an Incremental 3D
Gaussian Localization framework for efficient and 3D-aware image-goal
navigation. Specifically, we incrementally update the scene representation as
new images arrive with feed-forward monocular prediction. Then we coarsely
localize the goal by leveraging the geometric information for discrete space
matching, which can be equivalent to efficient 3D convolution. When the agent
is close to the goal, we finally solve the fine target pose with optimization
via differentiable rendering. The proposed IGL-Nav outperforms existing
state-of-the-art methods by a large margin across diverse experimental
configurations. It can also handle the more challenging free-view image-goal
setting and be deployed on real-world robotic platform using a cellphone to
capture goal image at arbitrary pose. Project page:
https://gwxuan.github.io/IGL-Nav/.