GeoRanker: 全世界画像ジオローカライゼーションのための距離認識ランキング
GeoRanker: Distance-Aware Ranking for Worldwide Image Geolocalization
May 19, 2025
著者: Pengyue Jia, Seongheon Park, Song Gao, Xiangyu Zhao, Yixuan Li
cs.AI
要旨
世界中の画像位置推定(地球上のどこかで撮影された画像からGPS座標を予測するタスク)は、地域間の視覚的コンテンツの多様性のため、根本的な課題を抱えています。最近のアプローチでは、候補を検索し最適なマッチを選択する2段階のパイプラインを採用していますが、これらは通常、単純な類似性ヒューリスティックと点単位の教師信号に依存しており、候補間の空間的関係をモデル化できていません。本論文では、GeoRankerを提案します。これは、大規模な視覚-言語モデルを活用してクエリと候補の相互作用を共同でエンコードし、地理的近接性を予測する距離認識型ランキングフレームワークです。さらに、絶対距離と相対距離の両方をランク付けする多階層距離損失を導入し、構造化された空間的関係を推論できるようにします。これをサポートするため、マルチモーダル候補情報を備えた地理的ランキングタスクに特化した初のデータセットであるGeoRankingを構築しました。GeoRankerは、2つの確立されたベンチマーク(IM2GPS3KとYFCC4K)において最先端の結果を達成し、現在の最良の手法を大幅に上回る性能を示しています。
English
Worldwide image geolocalization-the task of predicting GPS coordinates from
images taken anywhere on Earth-poses a fundamental challenge due to the vast
diversity in visual content across regions. While recent approaches adopt a
two-stage pipeline of retrieving candidates and selecting the best match, they
typically rely on simplistic similarity heuristics and point-wise supervision,
failing to model spatial relationships among candidates. In this paper, we
propose GeoRanker, a distance-aware ranking framework that leverages large
vision-language models to jointly encode query-candidate interactions and
predict geographic proximity. In addition, we introduce a multi-order distance
loss that ranks both absolute and relative distances, enabling the model to
reason over structured spatial relationships. To support this, we curate
GeoRanking, the first dataset explicitly designed for geographic ranking tasks
with multimodal candidate information. GeoRanker achieves state-of-the-art
results on two well-established benchmarks (IM2GPS3K and YFCC4K), significantly
outperforming current best methods.Summary
AI-Generated Summary