ChatPaper.aiChatPaper

GeoVista: Razonamiento Visual Agéntico Aumentado por la Web para Geolocalización

GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization

November 19, 2025
Autores: Yikun Wang, Zuyan Liu, Ziyi Wang, Pengfei Liu, Han Hu, Yongming Rao
cs.AI

Resumen

La investigación actual sobre el razonamiento visual agente permite una comprensión multimodal profunda, pero se centra principalmente en herramientas de manipulación de imágenes, dejando un vacío hacia modelos agentes de propósito más general. En este trabajo, revisitamos la tarea de geolocalización, que requiere no solo una base visual matizada sino también búsquedas web para confirmar o refinar hipótesis durante el razonamiento. Dado que los puntos de referencia existentes en geolocalización no satisfacen la necesidad de imágenes de alta resolución y el desafío de localización para un razonamiento agente profundo, hemos creado GeoBench, un benchmark que incluye fotos y panorámicas de todo el mundo, junto con un subconjunto de imágenes satelitales de diferentes ciudades para evaluar rigurosamente la capacidad de geolocalización de los modelos agentes. También proponemos GeoVista, un modelo agente que integra perfectamente la invocación de herramientas dentro del bucle de razonamiento, incluyendo una herramienta de zoom en la imagen para ampliar regiones de interés y una herramienta de búsqueda web para recuperar información web relacionada. Desarrollamos una canalización de entrenamiento completa para ello, que incluye una etapa inicial de ajuste fino supervisado (SFT) para aprender patrones de razonamiento y conocimientos previos sobre el uso de herramientas, seguida de una etapa de aprendizaje por refuerzo (RL) para mejorar aún más la capacidad de razonamiento. Adoptamos una recompensa jerárquica para aprovechar la información geográfica multinivel y mejorar el rendimiento general de la geolocalización. Los resultados experimentales muestran que GeoVista supera ampliamente a otros modelos agentes de código abierto en la tarea de geolocalización y logra un rendimiento comparable a modelos de código cerrado como Gemini-2.5-flash y GPT-5 en la mayoría de las métricas.
English
Current research on agentic visual reasoning enables deep multimodal understanding but primarily focuses on image manipulation tools, leaving a gap toward more general-purpose agentic models. In this work, we revisit the geolocalization task, which requires not only nuanced visual grounding but also web search to confirm or refine hypotheses during reasoning. Since existing geolocalization benchmarks fail to meet the need for high-resolution imagery and the localization challenge for deep agentic reasoning, we curate GeoBench, a benchmark that includes photos and panoramas from around the world, along with a subset of satellite images of different cities to rigorously evaluate the geolocalization ability of agentic models. We also propose GeoVista, an agentic model that seamlessly integrates tool invocation within the reasoning loop, including an image-zoom-in tool to magnify regions of interest and a web-search tool to retrieve related web information. We develop a complete training pipeline for it, including a cold-start supervised fine-tuning (SFT) stage to learn reasoning patterns and tool-use priors, followed by a reinforcement learning (RL) stage to further enhance reasoning ability. We adopt a hierarchical reward to leverage multi-level geographical information and improve overall geolocalization performance. Experimental results show that GeoVista surpasses other open-source agentic models on the geolocalization task greatly and achieves performance comparable to closed-source models such as Gemini-2.5-flash and GPT-5 on most metrics.
PDF893December 1, 2025