ChatPaper.aiChatPaper

Denken met Kaarten: Een Versterkte Parallelle Kaart-ondersteunde Agent voor Geolokalisatie

Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization

January 8, 2026
Auteurs: Yuxiang Ji, Yong Wang, Ziyu Ma, Yiming Hu, Hailang Huang, Xuecai Hu, Guanhua Chen, Liaoni Wu, Xiangxiang Chu
cs.AI

Samenvatting

De taak van beeldgeolokalisatie heeft als doel de locatie waar een foto is genomen, waar ook ter wereld, te voorspellen aan de hand van visuele aanwijzingen. Bestaande benaderingen met grote visie-taalmodellen (LVLM's) maken gebruik van wereldkennis, redeneren in denkstappen en agent-capaciteiten, maar negeren een veelgebruikte strategie van mensen – het gebruik van kaarten. In dit werk rusten we het model eerst uit met het vermogen om te Denken met Kaarten en formuleren we dit als een agent-in-de-kaart-lus. We ontwikkelen hiervoor een optimalisatieschema in twee fasen, bestaande uit reinforcement learning (RL) voor de agent, gevolgd door parallel schalen tijdens de testfase (TTS). De RL versterkt de agent-capaciteit van het model om de steekproefefficiëntie te verbeteren, en de parallelle TTS stelt het model in staat om meerdere kandidaatpaden te verkennen voordat de uiteindelijke voorspelling wordt gedaan, wat cruciaal is voor geolokalisatie. Om onze methode te evalueren met actuele en real-world beelden, presenteren we verder MAPBench, een uitgebreide geolokalisatietrainings- en evaluatiestandaard die volledig bestaat uit beelden uit de echte wereld. Experimentele resultaten tonen aan dat onze methode de bestaande open- en closed-source modellen op de meeste metrieken overtreft, met name door Acc@500m te verbeteren van 8,0% naar 22,1% in vergelijking met Gemini-3-Pro met de ondersteunde Google Search/Map-modus.
English
The image geolocalization task aims to predict the location where an image was taken anywhere on Earth using visual clues. Existing large vision-language model (LVLM) approaches leverage world knowledge, chain-of-thought reasoning, and agentic capabilities, but overlook a common strategy used by humans -- using maps. In this work, we first equip the model Thinking with Map ability and formulate it as an agent-in-the-map loop. We develop a two-stage optimization scheme for it, including agentic reinforcement learning (RL) followed by parallel test-time scaling (TTS). The RL strengthens the agentic capability of model to improve sampling efficiency, and the parallel TTS enables the model to explore multiple candidate paths before making the final prediction, which is crucial for geolocalization. To evaluate our method on up-to-date and in-the-wild images, we further present MAPBench, a comprehensive geolocalization training and evaluation benchmark composed entirely of real-world images. Experimental results show that our method outperforms existing open- and closed-source models on most metrics, specifically improving Acc@500m from 8.0\% to 22.1\% compared to Gemini-3-Pro with Google Search/Map grounded mode.
PDF1575January 16, 2026