GeoRanker: Clasificación Sensible a la Distancia para la Geolocalización Mundial de Imágenes
GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization
May 19, 2025
Autores: Pengyue Jia, Seongheon Park, Song Gao, Xiangyu Zhao, Yixuan Li
cs.AI
Resumen
La geolocalización mundial de imágenes, la tarea de predecir coordenadas GPS a partir de imágenes tomadas en cualquier lugar del planeta, presenta un desafío fundamental debido a la vasta diversidad en el contenido visual entre regiones. Si bien los enfoques recientes adoptan una canalización de dos etapas que consiste en recuperar candidatos y seleccionar la mejor coincidencia, generalmente dependen de heurísticas de similitud simplistas y supervisión punto a punto, lo que les impide modelar las relaciones espaciales entre los candidatos. En este artículo, proponemos GeoRanker, un marco de clasificación consciente de la distancia que aprovecha modelos grandes de visión y lenguaje para codificar conjuntamente las interacciones entre consultas y candidatos, y predecir la proximidad geográfica. Además, introducimos una función de pérdida de distancia de múltiples órdenes que clasifica tanto las distancias absolutas como las relativas, permitiendo que el modelo razone sobre relaciones espaciales estructuradas. Para respaldar esto, hemos creado GeoRanking, el primer conjunto de datos diseñado explícitamente para tareas de clasificación geográfica con información multimodal de candidatos. GeoRanker logra resultados de vanguardia en dos benchmarks bien establecidos (IM2GPS3K y YFCC4K), superando significativamente a los mejores métodos actuales.
English
Worldwide image geolocalization-the task of predicting GPS coordinates from
images taken anywhere on Earth-poses a fundamental challenge due to the vast
diversity in visual content across regions. While recent approaches adopt a
two-stage pipeline of retrieving candidates and selecting the best match, they
typically rely on simplistic similarity heuristics and point-wise supervision,
failing to model spatial relationships among candidates. In this paper, we
propose GeoRanker, a distance-aware ranking framework that leverages large
vision-language models to jointly encode query-candidate interactions and
predict geographic proximity. In addition, we introduce a multi-order distance
loss that ranks both absolute and relative distances, enabling the model to
reason over structured spatial relationships. To support this, we curate
GeoRanking, the first dataset explicitly designed for geographic ranking tasks
with multimodal candidate information. GeoRanker achieves state-of-the-art
results on two well-established benchmarks (IM2GPS3K and YFCC4K), significantly
outperforming current best methods.Summary
AI-Generated Summary