ChatPaper.aiChatPaper

GeoRanker: Clasificación Sensible a la Distancia para la Geolocalización Mundial de Imágenes

GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization

May 19, 2025
Autores: Pengyue Jia, Seongheon Park, Song Gao, Xiangyu Zhao, Yixuan Li
cs.AI

Resumen

La geolocalización mundial de imágenes, la tarea de predecir coordenadas GPS a partir de imágenes tomadas en cualquier lugar del planeta, presenta un desafío fundamental debido a la vasta diversidad en el contenido visual entre regiones. Si bien los enfoques recientes adoptan una canalización de dos etapas que consiste en recuperar candidatos y seleccionar la mejor coincidencia, generalmente dependen de heurísticas de similitud simplistas y supervisión punto a punto, lo que les impide modelar las relaciones espaciales entre los candidatos. En este artículo, proponemos GeoRanker, un marco de clasificación consciente de la distancia que aprovecha modelos grandes de visión y lenguaje para codificar conjuntamente las interacciones entre consultas y candidatos, y predecir la proximidad geográfica. Además, introducimos una función de pérdida de distancia de múltiples órdenes que clasifica tanto las distancias absolutas como las relativas, permitiendo que el modelo razone sobre relaciones espaciales estructuradas. Para respaldar esto, hemos creado GeoRanking, el primer conjunto de datos diseñado explícitamente para tareas de clasificación geográfica con información multimodal de candidatos. GeoRanker logra resultados de vanguardia en dos benchmarks bien establecidos (IM2GPS3K y YFCC4K), superando significativamente a los mejores métodos actuales.
English
Worldwide image geolocalization-the task of predicting GPS coordinates from images taken anywhere on Earth-poses a fundamental challenge due to the vast diversity in visual content across regions. While recent approaches adopt a two-stage pipeline of retrieving candidates and selecting the best match, they typically rely on simplistic similarity heuristics and point-wise supervision, failing to model spatial relationships among candidates. In this paper, we propose GeoRanker, a distance-aware ranking framework that leverages large vision-language models to jointly encode query-candidate interactions and predict geographic proximity. In addition, we introduce a multi-order distance loss that ranks both absolute and relative distances, enabling the model to reason over structured spatial relationships. To support this, we curate GeoRanking, the first dataset explicitly designed for geographic ranking tasks with multimodal candidate information. GeoRanker achieves state-of-the-art results on two well-established benchmarks (IM2GPS3K and YFCC4K), significantly outperforming current best methods.

Summary

AI-Generated Summary

PDF22May 21, 2025