GeoRanker: 전 세계 이미지 지리적 위치 파악을 위한 거리 인식 순위 지정
GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization
May 19, 2025
저자: Pengyue Jia, Seongheon Park, Song Gao, Xiangyu Zhao, Yixuan Li
cs.AI
초록
전 세계 이미지 지리 위치 파악(Worldwide image geolocalization)은 지구상 어디에서나 촬영된 이미지로부터 GPS 좌표를 예측하는 작업으로, 지역 간 시각적 콘텐츠의 광범위한 다양성으로 인해 근본적인 도전 과제로 여겨집니다. 최근 접근법들은 후보군을 검색하고 최적의 매치를 선택하는 두 단계의 파이프라인을 채택하지만, 이들은 일반적으로 단순한 유사성 휴리스틱과 점 단위의 지도 학습에 의존하여 후보군 간의 공간적 관계를 모델링하지 못합니다. 본 논문에서는 대규모 시각-언어 모델을 활용하여 쿼리-후보 상호작용을 공동으로 인코딩하고 지리적 근접성을 예측하는 거리 인식 순위 프레임워크인 GeoRanker를 제안합니다. 또한, 절대적 및 상대적 거리를 모두 순위화하는 다중 순위 거리 손실(multi-order distance loss)을 도입하여 모델이 구조화된 공간적 관계를 추론할 수 있도록 합니다. 이를 지원하기 위해, 우리는 다중 모드 후보 정보를 포함한 지리적 순위 작업을 위해 명시적으로 설계된 첫 번째 데이터셋인 GeoRanking을 구축했습니다. GeoRanker는 두 개의 잘 정립된 벤치마크(IM2GPS3K 및 YFCC4K)에서 최첨단 결과를 달성하며, 현재 최고의 방법들을 크게 능가합니다.
English
Worldwide image geolocalization-the task of predicting GPS coordinates from
images taken anywhere on Earth-poses a fundamental challenge due to the vast
diversity in visual content across regions. While recent approaches adopt a
two-stage pipeline of retrieving candidates and selecting the best match, they
typically rely on simplistic similarity heuristics and point-wise supervision,
failing to model spatial relationships among candidates. In this paper, we
propose GeoRanker, a distance-aware ranking framework that leverages large
vision-language models to jointly encode query-candidate interactions and
predict geographic proximity. In addition, we introduce a multi-order distance
loss that ranks both absolute and relative distances, enabling the model to
reason over structured spatial relationships. To support this, we curate
GeoRanking, the first dataset explicitly designed for geographic ranking tasks
with multimodal candidate information. GeoRanker achieves state-of-the-art
results on two well-established benchmarks (IM2GPS3K and YFCC4K), significantly
outperforming current best methods.Summary
AI-Generated Summary