CIPER: 교차 시점 이미지 검색 및 자세 추정을 위한 통합 프레임워크
CIPER: A Unified Framework for Cross-view Image-retrieval and Pose-estimation
June 3, 2026
저자: Yurim Jeon, Dongseong Seo, Seung-Woo Seo
cs.AI
초록
교차 시점 지리적 위치 추정은 지상 이미지를 항공 이미지 데이터베이스와 매칭하여 지리적 위치를 추정하는 작업이다. 기존 방법은 대규모 검색 또는 정밀한 자세 추정 중 하나로 접근하지만, 둘 다를 동시에 수행하지는 않는다. 검색 기반 방법은 넓은 영역 검색이 가능하지만 위치 정확도가 떨어지는 반면, 자세 추정 방법은 좁은 검색 공간 내에서만 높은 정밀도를 달성한다. 이들 파이프라인을 단순히 연쇄적으로 연결하면 오류 전파와 불일치하는 특징 표현이 발생한다. 우리는 교차 시점 지리적 위치 추정을 도시 규모의 검색과 정밀한 3 자유도 자세 추정을 동시에 요구하는 통합 문제로 정식화한다. 본 논문에서는 상호 이익이 되는 특징 학습을 통해 두 작업을 공동으로 수행하는 단일 아키텍처인 CIPER(Cross-view Image-retrieval and Pose-estimation transformER)를 제안한다. CIPER는 작업별 토큰이 있는 공유 트랜스포머 인코더를 사용하여 전역 검색 특징과 공간 위치 단서를 분리한다. 지상과 항공 뷰 간의 큰 도메인 차이를 극복하기 위해, 지상 특징을 양방향 교차 주의를 위한 공간 질의로 사용하는 양방향 트랜스포머 자세 디코더를 도입한다. 또한 집합 예측 전략을 통해 통합 다중 작업 목표 하에서 안정적인 3 자유도 회귀가 가능하다. VIGOR, KITTI, Ford Multi-AV 데이터셋에서의 실험은 특히 제한된 시야와 임의의 방향 조건에서 경쟁력 있는 성능을 보여준다. 코드는 https://github.com/yurimjeon1892/CIPER에서 확인할 수 있다.
English
Cross-view geo-localization estimates the geographic location of a ground image by matching it against an aerial image database. Existing methods tackle this through either large-scale retrieval or precise pose estimation, but not both: retrieval-based methods enable wide-area search at the cost of localization accuracy, while pose estimation methods achieve high precision within only a narrow search space. Naively cascading these pipelines introduces error propagation and inconsistent feature representations. We formulate cross-view geo-localization as a unified problem requiring simultaneous city-scale retrieval and precise 3-DoF pose estimation. We propose CIPER (Cross-view Image-retrieval and Pose-estimation transformER), a single architecture that jointly performs both tasks through mutually beneficial feature learning. CIPER uses a shared transformer encoder with task-specific tokens to disentangle global retrieval features from spatial localization cues. To bridge the large domain gap between ground and aerial views, we introduce a two-way transformer pose decoder that uses ground features as spatial queries for bidirectional cross-attention. A set prediction strategy further enables stable 3-DoF regression under a unified multi-task objective. Experiments on VIGOR, KITTI, and Ford Multi-AV demonstrate competitive performance, especially under limited field-of-view and arbitrary orientation conditions. Code is available at https://github.com/yurimjeon1892/CIPER.