ChatPaper.aiChatPaper

GeoRanker: Classifica Sensibile alla Distanza per la Geolocalizzazione Globale di Immagini

GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization

May 19, 2025
Autori: Pengyue Jia, Seongheon Park, Song Gao, Xiangyu Zhao, Yixuan Li
cs.AI

Abstract

La geolocalizzazione globale di immagini - il compito di prevedere le coordinate GPS da immagini scattate in qualsiasi parte del mondo - rappresenta una sfida fondamentale a causa della vasta diversità di contenuti visivi tra le diverse regioni. Sebbene gli approcci recenti adottino una pipeline in due fasi che prevede il recupero di candidati e la selezione della migliore corrispondenza, essi si basano tipicamente su euristiche di similarità semplicistiche e supervisione puntuale, non riuscendo a modellare le relazioni spaziali tra i candidati. In questo articolo, proponiamo GeoRanker, un framework di ranking consapevole della distanza che sfrutta modelli di visione e linguaggio su larga scala per codificare congiuntamente le interazioni query-candidato e prevedere la prossimità geografica. Inoltre, introduciamo una funzione di perdita multi-ordine che classifica sia le distanze assolute che quelle relative, consentendo al modello di ragionare su relazioni spaziali strutturate. A supporto di ciò, abbiamo curato GeoRanking, il primo dataset progettato esplicitamente per compiti di ranking geografico con informazioni multimodali sui candidati. GeoRanker ottiene risultati all'avanguardia su due benchmark consolidati (IM2GPS3K e YFCC4K), superando significativamente i metodi attualmente migliori.
English
Worldwide image geolocalization-the task of predicting GPS coordinates from images taken anywhere on Earth-poses a fundamental challenge due to the vast diversity in visual content across regions. While recent approaches adopt a two-stage pipeline of retrieving candidates and selecting the best match, they typically rely on simplistic similarity heuristics and point-wise supervision, failing to model spatial relationships among candidates. In this paper, we propose GeoRanker, a distance-aware ranking framework that leverages large vision-language models to jointly encode query-candidate interactions and predict geographic proximity. In addition, we introduce a multi-order distance loss that ranks both absolute and relative distances, enabling the model to reason over structured spatial relationships. To support this, we curate GeoRanking, the first dataset explicitly designed for geographic ranking tasks with multimodal candidate information. GeoRanker achieves state-of-the-art results on two well-established benchmarks (IM2GPS3K and YFCC4K), significantly outperforming current best methods.
PDF22May 21, 2025