ChatPaper.aiChatPaper

Penser avec la carte : Agent parallèle renforcé augmenté par carte pour la géolocalisation

Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization

January 8, 2026
papers.authors: Yuxiang Ji, Yong Wang, Ziyu Ma, Yiming Hu, Hailang Huang, Xuecai Hu, Guanhua Chen, Liaoni Wu, Xiangxiang Chu
cs.AI

papers.abstract

La tâche de géolocalisation d'images vise à prédire l'emplacement où une photo a été prise n'importe où sur Terre en utilisant des indices visuels. Les approches existantes basées sur les grands modèles vision-langage (LVLM) exploitent les connaissances mondiales, le raisonnement en chaîne de pensée et les capacités agentielles, mais négligent une stratégie courante utilisée par les humains : l'utilisation de cartes. Dans ce travail, nous dotons d'abord le modèle de la capacité de réflexion avec des cartes et la formulons comme une boucle agent-dans-la-carte. Nous développons un schéma d'optimisation en deux étapes, incluant un apprentissage par renforcement agentiel suivi d'une mise à l'échelle parallèle au moment du test. Le renforcement apprentissage renforce la capacité agentielle du modèle pour améliorer l'efficacité de l'échantillonnage, et la mise à l'échelle parallèle permet au modèle d'explorer plusieurs chemins candidats avant de faire la prédiction finale, ce qui est crucial pour la géolocalisation. Pour évaluer notre méthode sur des images récentes et non contrôlées, nous présentons en outre MAPBench, un benchmark complet d'entraînement et d'évaluation en géolocalisation composé entièrement d'images du monde réel. Les résultats expérimentaux montrent que notre méthode surpasse les modèles open source et propriétaires existants sur la plupart des métriques, améliorant spécifiquement Acc@500m de 8,0 % à 22,1 % par rapport à Gemini-3-Pro avec le mode ancré Google Search/Map.
English
The image geolocalization task aims to predict the location where an image was taken anywhere on Earth using visual clues. Existing large vision-language model (LVLM) approaches leverage world knowledge, chain-of-thought reasoning, and agentic capabilities, but overlook a common strategy used by humans -- using maps. In this work, we first equip the model Thinking with Map ability and formulate it as an agent-in-the-map loop. We develop a two-stage optimization scheme for it, including agentic reinforcement learning (RL) followed by parallel test-time scaling (TTS). The RL strengthens the agentic capability of model to improve sampling efficiency, and the parallel TTS enables the model to explore multiple candidate paths before making the final prediction, which is crucial for geolocalization. To evaluate our method on up-to-date and in-the-wild images, we further present MAPBench, a comprehensive geolocalization training and evaluation benchmark composed entirely of real-world images. Experimental results show that our method outperforms existing open- and closed-source models on most metrics, specifically improving Acc@500m from 8.0\% to 22.1\% compared to Gemini-3-Pro with Google Search/Map grounded mode.
PDF1293January 13, 2026