GeoRanker: Classificação Sensível à Distância para Geolocalização Mundial de Imagens
GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization
May 19, 2025
Autores: Pengyue Jia, Seongheon Park, Song Gao, Xiangyu Zhao, Yixuan Li
cs.AI
Resumo
A geolocalização global de imagens - a tarefa de prever coordenadas GPS a partir de imagens capturadas em qualquer lugar da Terra - apresenta um desafio fundamental devido à vasta diversidade de conteúdo visual entre as regiões. Embora abordagens recentes adotem um pipeline de duas etapas para recuperar candidatos e selecionar a melhor correspondência, elas geralmente dependem de heurísticas de similaridade simplistas e supervisão pontual, falhando em modelar relações espaciais entre os candidatos. Neste artigo, propomos o GeoRanker, um framework de classificação consciente da distância que aproveita grandes modelos de visão e linguagem para codificar conjuntamente interações entre consultas e candidatos e prever proximidade geográfica. Além disso, introduzimos uma função de perda de distância de múltiplas ordens que classifica tanto distâncias absolutas quanto relativas, permitindo que o modelo raciocine sobre relações espaciais estruturadas. Para apoiar isso, criamos o GeoRanking, o primeiro conjunto de dados explicitamente projetado para tarefas de classificação geográfica com informações multimodais de candidatos. O GeoRanker alcança resultados de ponta em dois benchmarks bem estabelecidos (IM2GPS3K e YFCC4K), superando significativamente os melhores métodos atuais.
English
Worldwide image geolocalization-the task of predicting GPS coordinates from
images taken anywhere on Earth-poses a fundamental challenge due to the vast
diversity in visual content across regions. While recent approaches adopt a
two-stage pipeline of retrieving candidates and selecting the best match, they
typically rely on simplistic similarity heuristics and point-wise supervision,
failing to model spatial relationships among candidates. In this paper, we
propose GeoRanker, a distance-aware ranking framework that leverages large
vision-language models to jointly encode query-candidate interactions and
predict geographic proximity. In addition, we introduce a multi-order distance
loss that ranks both absolute and relative distances, enabling the model to
reason over structured spatial relationships. To support this, we curate
GeoRanking, the first dataset explicitly designed for geographic ranking tasks
with multimodal candidate information. GeoRanker achieves state-of-the-art
results on two well-established benchmarks (IM2GPS3K and YFCC4K), significantly
outperforming current best methods.