GeoRanker: Дистанционно-ориентированное ранжирование для глобальной геолокализации изображений
GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization
May 19, 2025
Авторы: Pengyue Jia, Seongheon Park, Song Gao, Xiangyu Zhao, Yixuan Li
cs.AI
Аннотация
Глобальная геолокация изображений — задача предсказания GPS-координат по изображениям, сделанным в любой точке Земли, — представляет собой фундаментальную проблему из-за огромного разнообразия визуального контента в разных регионах. Хотя современные подходы используют двухэтапный процесс, включающий поиск кандидатов и выбор наилучшего соответствия, они обычно полагаются на упрощенные эвристики сходства и точечное обучение, не учитывая пространственные отношения между кандидатами. В данной работе мы предлагаем GeoRanker — ранжирующую систему, учитывающую расстояния, которая использует крупные модели обработки изображений и текста для совместного кодирования взаимодействий между запросом и кандидатами и предсказания географической близости. Кроме того, мы вводим функцию потерь, учитывающую расстояния разных порядков, что позволяет модели анализировать как абсолютные, так и относительные расстояния, учитывая структурированные пространственные отношения. Для поддержки этого подхода мы создали GeoRanking — первый набор данных, специально разработанный для задач географического ранжирования с мультимодальной информацией о кандидатах. GeoRanker демонстрирует наилучшие результаты на двух известных бенчмарках (IM2GPS3K и YFCC4K), значительно превосходя текущие лучшие методы.
English
Worldwide image geolocalization-the task of predicting GPS coordinates from
images taken anywhere on Earth-poses a fundamental challenge due to the vast
diversity in visual content across regions. While recent approaches adopt a
two-stage pipeline of retrieving candidates and selecting the best match, they
typically rely on simplistic similarity heuristics and point-wise supervision,
failing to model spatial relationships among candidates. In this paper, we
propose GeoRanker, a distance-aware ranking framework that leverages large
vision-language models to jointly encode query-candidate interactions and
predict geographic proximity. In addition, we introduce a multi-order distance
loss that ranks both absolute and relative distances, enabling the model to
reason over structured spatial relationships. To support this, we curate
GeoRanking, the first dataset explicitly designed for geographic ranking tasks
with multimodal candidate information. GeoRanker achieves state-of-the-art
results on two well-established benchmarks (IM2GPS3K and YFCC4K), significantly
outperforming current best methods.Summary
AI-Generated Summary