ChatPaper.aiChatPaper

IGL-Nav: 이미지 목표 탐색을 위한 점진적 3D 가우시안 위치 인식

IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation

August 1, 2025
저자: Wenxuan Guo, Xiuwei Xu, Hang Yin, Ziwei Wang, Jianjiang Feng, Jie Zhou, Jiwen Lu
cs.AI

초록

이미지를 목표로 한 시각적 탐색은 근본적이면서도 도전적인 문제입니다. 기존의 방법들은 종단간 강화학습(RL)에 의존하거나, 위상 그래프나 BEV(Bird's Eye View) 맵을 메모리로 사용하는 모듈 기반 정책을 활용했는데, 이는 탐색된 3D 환경과 목표 이미지 간의 기하학적 관계를 완전히 모델링하지 못합니다. 3D 공간에서 목표 이미지를 효율적이고 정확하게 위치시키기 위해, 우리는 렌더링 가능한 3D 가우시안(3DGS) 표현을 기반으로 탐색 시스템을 구축했습니다. 그러나 3DGS 최적화의 계산 부담과 6-DoF 카메라 포즈의 큰 탐색 공간으로 인해, 에이전트 탐색 과정에서 3DGS를 직접 활용하여 이미지 위치를 파악하는 것은 비효율적입니다. 이를 해결하기 위해, 우리는 IGL-Nav(Incremental 3D Gaussian Localization) 프레임워크를 제안합니다. 이는 효율적이고 3D 인식이 가능한 이미지 목표 탐색을 위한 프레임워크입니다. 구체적으로, 새로운 이미지가 도착할 때마다 단안 예측을 통해 장면 표현을 점진적으로 업데이트합니다. 그런 다음 기하학적 정보를 활용하여 이산 공간 매칭을 통해 목표를 대략적으로 위치시킵니다. 이는 효율적인 3D 컨볼루션과 동등할 수 있습니다. 에이전트가 목표에 가까워지면, 미분 가능 렌더링을 통한 최적화로 정밀한 목표 포즈를 최종적으로 해결합니다. 제안된 IGL-Nav는 다양한 실험 설정에서 기존의 최신 방법들을 큰 차이로 능가합니다. 또한 더 도전적인 자유 시점 이미지 목표 설정을 처리할 수 있으며, 임의의 포즈에서 목표 이미지를 캡처하기 위해 스마트폰을 사용하여 실제 로봇 플랫폼에 배포할 수 있습니다. 프로젝트 페이지: https://gwxuan.github.io/IGL-Nav/.
English
Visual navigation with an image as goal is a fundamental and challenging problem. Conventional methods either rely on end-to-end RL learning or modular-based policy with topological graph or BEV map as memory, which cannot fully model the geometric relationship between the explored 3D environment and the goal image. In order to efficiently and accurately localize the goal image in 3D space, we build our navigation system upon the renderable 3D gaussian (3DGS) representation. However, due to the computational intensity of 3DGS optimization and the large search space of 6-DoF camera pose, directly leveraging 3DGS for image localization during agent exploration process is prohibitively inefficient. To this end, we propose IGL-Nav, an Incremental 3D Gaussian Localization framework for efficient and 3D-aware image-goal navigation. Specifically, we incrementally update the scene representation as new images arrive with feed-forward monocular prediction. Then we coarsely localize the goal by leveraging the geometric information for discrete space matching, which can be equivalent to efficient 3D convolution. When the agent is close to the goal, we finally solve the fine target pose with optimization via differentiable rendering. The proposed IGL-Nav outperforms existing state-of-the-art methods by a large margin across diverse experimental configurations. It can also handle the more challenging free-view image-goal setting and be deployed on real-world robotic platform using a cellphone to capture goal image at arbitrary pose. Project page: https://gwxuan.github.io/IGL-Nav/.
PDF42August 4, 2025