GeoRanker : Classement tenant compte de la distance pour la géolocalisation mondiale d'images
GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization
May 19, 2025
Auteurs: Pengyue Jia, Seongheon Park, Song Gao, Xiangyu Zhao, Yixuan Li
cs.AI
Résumé
La géolocalisation mondiale d'images - la tâche consistant à prédire les coordonnées GPS à partir d'images prises n'importe où sur Terre - représente un défi fondamental en raison de la grande diversité du contenu visuel entre les régions. Bien que les approches récentes adoptent un pipeline en deux étapes de récupération de candidats et de sélection de la meilleure correspondance, elles reposent généralement sur des heuristiques de similarité simplistes et une supervision ponctuelle, ne parvenant pas à modéliser les relations spatiales entre les candidats. Dans cet article, nous proposons GeoRanker, un cadre de classement prenant en compte les distances qui exploite de grands modèles vision-langage pour encoder conjointement les interactions requête-candidat et prédire la proximité géographique. De plus, nous introduisons une fonction de perte multi-ordre qui classe à la fois les distances absolues et relatives, permettant au modèle de raisonner sur des relations spatiales structurées. Pour soutenir cela, nous avons constitué GeoRanking, le premier ensemble de données explicitement conçu pour les tâches de classement géographique avec des informations multimodales sur les candidats. GeoRanker obtient des résultats de pointe sur deux benchmarks bien établis (IM2GPS3K et YFCC4K), surpassant significativement les meilleures méthodes actuelles.
English
Worldwide image geolocalization-the task of predicting GPS coordinates from
images taken anywhere on Earth-poses a fundamental challenge due to the vast
diversity in visual content across regions. While recent approaches adopt a
two-stage pipeline of retrieving candidates and selecting the best match, they
typically rely on simplistic similarity heuristics and point-wise supervision,
failing to model spatial relationships among candidates. In this paper, we
propose GeoRanker, a distance-aware ranking framework that leverages large
vision-language models to jointly encode query-candidate interactions and
predict geographic proximity. In addition, we introduce a multi-order distance
loss that ranks both absolute and relative distances, enabling the model to
reason over structured spatial relationships. To support this, we curate
GeoRanking, the first dataset explicitly designed for geographic ranking tasks
with multimodal candidate information. GeoRanker achieves state-of-the-art
results on two well-established benchmarks (IM2GPS3K and YFCC4K), significantly
outperforming current best methods.Summary
AI-Generated Summary