地図を用いた思考:位置情報特定のための強化学習による並列マップ拡張エージェント
Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization
January 8, 2026
著者: Yuxiang Ji, Yong Wang, Ziyu Ma, Yiming Hu, Hailang Huang, Xuecai Hu, Guanhua Chen, Liaoni Wu, Xiangxiang Chu
cs.AI
要旨
画像位置推定タスクは、視覚的手がかりを用いて地球上の任意の場所で撮影された画像の位置を予測することを目的としている。既存の大規模視覚言語モデル(LVLM)アプローチは、世界知識、連鎖的思考推論、エージェント機能を活用するが、人間が一般的に使用する戦略――地図の利用――を見過ごしている。本研究ではまず、モデルに地図を活用する思考能力を付与し、それを「地図内エージェントループ」として定式化する。さらに、エージェント強化学習(RL)と並列テスト時スケーリング(TTS)を含む2段階最適化手法を開発する。RLはサンプリング効率を向上させるためにモデルのエージェント能力を強化し、並列TTSは最終予測前に複数の候補経路を探索することを可能にし、位置推定において決定的に重要である。最新の実世界画像を用いた手法評価のために、実写画像のみで構成された総合的な位置推定トレーニングおよび評価ベンチマーク「MAPBench」をさらに提案する。実験結果では、本手法が既存のオープンソースおよびクローズドソースモデルをほとんどの指標で上回り、特にGoogle検索/地図グラウンディングモード搭載のGemini-3-Proと比較してAcc@500mを8.0%から22.1%に改善した。
English
The image geolocalization task aims to predict the location where an image was taken anywhere on Earth using visual clues. Existing large vision-language model (LVLM) approaches leverage world knowledge, chain-of-thought reasoning, and agentic capabilities, but overlook a common strategy used by humans -- using maps. In this work, we first equip the model Thinking with Map ability and formulate it as an agent-in-the-map loop. We develop a two-stage optimization scheme for it, including agentic reinforcement learning (RL) followed by parallel test-time scaling (TTS). The RL strengthens the agentic capability of model to improve sampling efficiency, and the parallel TTS enables the model to explore multiple candidate paths before making the final prediction, which is crucial for geolocalization. To evaluate our method on up-to-date and in-the-wild images, we further present MAPBench, a comprehensive geolocalization training and evaluation benchmark composed entirely of real-world images. Experimental results show that our method outperforms existing open- and closed-source models on most metrics, specifically improving Acc@500m from 8.0\% to 22.1\% compared to Gemini-3-Pro with Google Search/Map grounded mode.