GeoRanker: Entfernungsbewusste Rangfolge für die weltweite Bildgeolokalisierung
GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization
May 19, 2025
Autoren: Pengyue Jia, Seongheon Park, Song Gao, Xiangyu Zhao, Yixuan Li
cs.AI
Zusammenfassung
Weltweite Bildgeolokalisierung – die Aufgabe, GPS-Koordinaten aus Bildern, die überall auf der Erde aufgenommen wurden, vorherzusagen – stellt eine grundlegende Herausforderung dar, bedingt durch die enorme Vielfalt der visuellen Inhalte in verschiedenen Regionen. Während aktuelle Ansätze eine zweistufige Pipeline verwenden, bei der Kandidaten abgerufen und die beste Übereinstimmung ausgewählt wird, verlassen sie sich typischerweise auf vereinfachte Ähnlichkeitsheuristiken und punktuelle Überwachung, wodurch sie räumliche Beziehungen zwischen den Kandidaten nicht modellieren können. In diesem Artikel stellen wir GeoRanker vor, ein distanzbewusstes Ranking-Framework, das große Vision-Language-Modelle nutzt, um Interaktionen zwischen Anfragen und Kandidaten gemeinsam zu kodieren und geografische Nähe vorherzusagen. Zusätzlich führen wir einen Multi-Order-Distanzverlust ein, der sowohl absolute als auch relative Distanzen bewertet, wodurch das Modell in die Lage versetzt wird, strukturierte räumliche Beziehungen zu erfassen. Um dies zu unterstützen, haben wir GeoRanking kuratiert, den ersten Datensatz, der explizit für geografische Ranking-Aufgaben mit multimodalen Kandidateninformationen entwickelt wurde. GeoRanker erzielt state-of-the-art Ergebnisse auf zwei etablierten Benchmarks (IM2GPS3K und YFCC4K) und übertrifft die derzeit besten Methoden deutlich.
English
Worldwide image geolocalization-the task of predicting GPS coordinates from
images taken anywhere on Earth-poses a fundamental challenge due to the vast
diversity in visual content across regions. While recent approaches adopt a
two-stage pipeline of retrieving candidates and selecting the best match, they
typically rely on simplistic similarity heuristics and point-wise supervision,
failing to model spatial relationships among candidates. In this paper, we
propose GeoRanker, a distance-aware ranking framework that leverages large
vision-language models to jointly encode query-candidate interactions and
predict geographic proximity. In addition, we introduce a multi-order distance
loss that ranks both absolute and relative distances, enabling the model to
reason over structured spatial relationships. To support this, we curate
GeoRanking, the first dataset explicitly designed for geographic ranking tasks
with multimodal candidate information. GeoRanker achieves state-of-the-art
results on two well-established benchmarks (IM2GPS3K and YFCC4K), significantly
outperforming current best methods.Summary
AI-Generated Summary