ChatPaper.aiChatPaper

Pensar con Mapas: Agente Aumentado con Mapas Paralelos Reforzados para Geolocalización

Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization

January 8, 2026
Autores: Yuxiang Ji, Yong Wang, Ziyu Ma, Yiming Hu, Hailang Huang, Xuecai Hu, Guanhua Chen, Liaoni Wu, Xiangxiang Chu
cs.AI

Resumen

La tarea de geolocalización de imágenes tiene como objetivo predecir la ubicación donde se tomó una imagen en cualquier parte del mundo utilizando pistas visuales. Los enfoques existentes basados en grandes modelos de visión y lenguaje (LVLM) aprovechan el conocimiento mundial, el razonamiento de cadena de pensamiento y las capacidades agentivas, pero pasan por alto una estrategia común utilizada por los humanos: el uso de mapas. En este trabajo, primero dotamos al modelo de la capacidad de Pensar con Mapas y lo formulamos como un bucle agente-en-el-mapa. Desarrollamos un esquema de optimización de dos etapas para ello, que incluye aprendizaje por refuerzo (RL) agentico seguido de escalado paralelo en tiempo de prueba (TTS). El RL fortalece la capacidad agentica del modelo para mejorar la eficiencia del muestreo, y el TTS paralelo permite al modelo explorar múltiples rutas candidatas antes de realizar la predicción final, lo cual es crucial para la geolocalización. Para evaluar nuestro método con imágenes actualizadas y del mundo real, presentamos además MAPBench, un benchmark integral de entrenamiento y evaluación para geolocalización compuesto enteramente por imágenes reales. Los resultados experimentales muestran que nuestro método supera a los modelos existentes de código abierto y cerrado en la mayoría de las métricas, mejorando específicamente Acc@500m del 8.0% al 22.1% en comparación con Gemini-3-Pro con modo basado en Búsqueda/Mapas de Google.
English
The image geolocalization task aims to predict the location where an image was taken anywhere on Earth using visual clues. Existing large vision-language model (LVLM) approaches leverage world knowledge, chain-of-thought reasoning, and agentic capabilities, but overlook a common strategy used by humans -- using maps. In this work, we first equip the model Thinking with Map ability and formulate it as an agent-in-the-map loop. We develop a two-stage optimization scheme for it, including agentic reinforcement learning (RL) followed by parallel test-time scaling (TTS). The RL strengthens the agentic capability of model to improve sampling efficiency, and the parallel TTS enables the model to explore multiple candidate paths before making the final prediction, which is crucial for geolocalization. To evaluate our method on up-to-date and in-the-wild images, we further present MAPBench, a comprehensive geolocalization training and evaluation benchmark composed entirely of real-world images. Experimental results show that our method outperforms existing open- and closed-source models on most metrics, specifically improving Acc@500m from 8.0\% to 22.1\% compared to Gemini-3-Pro with Google Search/Map grounded mode.
PDF1293January 13, 2026