ChatPaper.aiChatPaper

Denken mit Karte: Verstärkter paralleler kartenunterstützter Agent für Geolokalisierung

Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization

January 8, 2026
papers.authors: Yuxiang Ji, Yong Wang, Ziyu Ma, Yiming Hu, Hailang Huang, Xuecai Hu, Guanhua Chen, Liaoni Wu, Xiangxiang Chu
cs.AI

papers.abstract

Die Bildgeolokalisierungsaufgabe zielt darauf ab, den Aufnahmeort eines Bildes anhand visueller Hinweise überall auf der Erde vorherzusagen. Bestehende Large Vision-Language-Modelle (LVLM) nutzen Weltwissen, Chain-of-Thought-Reasoning und agentenbasierte Fähigkeiten, übersehen jedoch eine gängige menschliche Strategie – die Verwendung von Karten. In dieser Arbeit statten wir das Modell zunächst mit der Fähigkeit „Denken mit Karten“ aus und formulieren es als Agent-in-the-Map-Schleife. Wir entwickeln ein zweistufiges Optimierungsschema dafür, bestehend aus bestärkendem Lernen (RL) für Agenten, gefolgt von parallelem Test-Time-Scaling (TTS). Das RL stärkt die agentenbasierte Fähigkeit des Modells, um die Stichprobeneffizienz zu verbessern, und das parallele TTS ermöglicht es dem Modell, mehrere Kandidatenpfade zu erkunden, bevor es die endgültige Vorhersage trifft, was für die Geolokalisierung entscheidend ist. Um unsere Methode an aktuellen und unkontrollierten Bildern zu evaluieren, stellen wir außerdem MAPBench vor, einen umfassenden Trainings- und Evaluierungsbenchmark für Geolokalisierung, der vollständig aus realen Bildern besteht. Experimentelle Ergebnisse zeigen, dass unsere Methode bestehende Open- und Closed-Source-Modelle bei den meisten Metriken übertrifft und speziell Acc@500m von 8,0 % auf 22,1 % verbessert, verglichen mit Gemini-3-Pro im Google Search/Map-gestützten Modus.
English
The image geolocalization task aims to predict the location where an image was taken anywhere on Earth using visual clues. Existing large vision-language model (LVLM) approaches leverage world knowledge, chain-of-thought reasoning, and agentic capabilities, but overlook a common strategy used by humans -- using maps. In this work, we first equip the model Thinking with Map ability and formulate it as an agent-in-the-map loop. We develop a two-stage optimization scheme for it, including agentic reinforcement learning (RL) followed by parallel test-time scaling (TTS). The RL strengthens the agentic capability of model to improve sampling efficiency, and the parallel TTS enables the model to explore multiple candidate paths before making the final prediction, which is crucial for geolocalization. To evaluate our method on up-to-date and in-the-wild images, we further present MAPBench, a comprehensive geolocalization training and evaluation benchmark composed entirely of real-world images. Experimental results show that our method outperforms existing open- and closed-source models on most metrics, specifically improving Acc@500m from 8.0\% to 22.1\% compared to Gemini-3-Pro with Google Search/Map grounded mode.
PDF1293January 13, 2026