Pensare con la Mappa: Agente a Mappe Aumentate Rinforzato e Parallelo per la Geolocalizzazione

Abstract

Il compito di geolocalizzazione delle immagini mira a prevedere la posizione in cui un'immagine è stata scattata in qualsiasi punto della Terra utilizzando indizi visivi. Gli approcci esistenti basati su grandi modelli visione-linguaggio (LVLM) sfruttano la conoscenza mondiale, il ragionamento a catena del pensiero e le capacità agentiche, ma trascurano una strategia comune utilizzata dagli esseri umani: l'uso delle mappe. In questo lavoro, dotiamo innanzitutto il modello della capacità di Pensare con la Mappa e la formuliamo come un ciclo agente-nella-mappa. Sviluppiamo per essa uno schema di ottimizzazione a due stadi, comprendente un reinforcement learning (RL) agentico seguito da un parallel test-time scaling (TTS). Il RL potenzia la capacità agentica del modello per migliorare l'efficienza di campionamento, mentre il TTS parallelo consente al modello di esplorare percorsi candidati multipli prima di effettuare la previsione finale, aspetto cruciale per la geolocalizzazione. Per valutare il nostro metodo su immagini aggiornate e in contesti reali, presentiamo inoltre MAPBench, un benchmark completo di addestramento e valutazione per la geolocalizzazione composto interamente da immagini del mondo reale. I risultati sperimentali mostrano che il nostro metodo supera i modelli esistenti open-source e closed-source nella maggior parte delle metriche, migliorando in particolare l'Acc@500m dall'8.0% al 22.1% rispetto a Gemini-3-Pro con modalità groundata su Google Search/Map.

English

The image geolocalization task aims to predict the location where an image was taken anywhere on Earth using visual clues. Existing large vision-language model (LVLM) approaches leverage world knowledge, chain-of-thought reasoning, and agentic capabilities, but overlook a common strategy used by humans -- using maps. In this work, we first equip the model Thinking with Map ability and formulate it as an agent-in-the-map loop. We develop a two-stage optimization scheme for it, including agentic reinforcement learning (RL) followed by parallel test-time scaling (TTS). The RL strengthens the agentic capability of model to improve sampling efficiency, and the parallel TTS enables the model to explore multiple candidate paths before making the final prediction, which is crucial for geolocalization. To evaluate our method on up-to-date and in-the-wild images, we further present MAPBench, a comprehensive geolocalization training and evaluation benchmark composed entirely of real-world images. Experimental results show that our method outperforms existing open- and closed-source models on most metrics, specifically improving Acc@500m from 8.0\% to 22.1\% compared to Gemini-3-Pro with Google Search/Map grounded mode.

Pensare con la Mappa: Agente a Mappe Aumentate Rinforzato e Parallelo per la Geolocalizzazione

Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization

Abstract

Support