GeoRanker: Classifica Sensibile alla Distanza per la Geolocalizzazione Globale di Immagini
GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization
May 19, 2025
Autori: Pengyue Jia, Seongheon Park, Song Gao, Xiangyu Zhao, Yixuan Li
cs.AI
Abstract
La geolocalizzazione globale di immagini - il compito di prevedere le coordinate GPS da immagini scattate in qualsiasi parte del mondo - rappresenta una sfida fondamentale a causa della vasta diversità di contenuti visivi tra le diverse regioni. Sebbene gli approcci recenti adottino una pipeline in due fasi che prevede il recupero di candidati e la selezione della migliore corrispondenza, essi si basano tipicamente su euristiche di similarità semplicistiche e supervisione puntuale, non riuscendo a modellare le relazioni spaziali tra i candidati. In questo articolo, proponiamo GeoRanker, un framework di ranking consapevole della distanza che sfrutta modelli di visione e linguaggio su larga scala per codificare congiuntamente le interazioni query-candidato e prevedere la prossimità geografica. Inoltre, introduciamo una funzione di perdita multi-ordine che classifica sia le distanze assolute che quelle relative, consentendo al modello di ragionare su relazioni spaziali strutturate. A supporto di ciò, abbiamo curato GeoRanking, il primo dataset progettato esplicitamente per compiti di ranking geografico con informazioni multimodali sui candidati. GeoRanker ottiene risultati all'avanguardia su due benchmark consolidati (IM2GPS3K e YFCC4K), superando significativamente i metodi attualmente migliori.
English
Worldwide image geolocalization-the task of predicting GPS coordinates from
images taken anywhere on Earth-poses a fundamental challenge due to the vast
diversity in visual content across regions. While recent approaches adopt a
two-stage pipeline of retrieving candidates and selecting the best match, they
typically rely on simplistic similarity heuristics and point-wise supervision,
failing to model spatial relationships among candidates. In this paper, we
propose GeoRanker, a distance-aware ranking framework that leverages large
vision-language models to jointly encode query-candidate interactions and
predict geographic proximity. In addition, we introduce a multi-order distance
loss that ranks both absolute and relative distances, enabling the model to
reason over structured spatial relationships. To support this, we curate
GeoRanking, the first dataset explicitly designed for geographic ranking tasks
with multimodal candidate information. GeoRanker achieves state-of-the-art
results on two well-established benchmarks (IM2GPS3K and YFCC4K), significantly
outperforming current best methods.