GeoVista : Raisonnement Visuel Agentiel Augmenté par le Web pour la Géolocalisation
GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization
November 19, 2025
papers.authors: Yikun Wang, Zuyan Liu, Ziyi Wang, Pengfei Liu, Han Hu, Yongming Rao
cs.AI
papers.abstract
Les recherches actuelles sur le raisonnement visuel agentique permettent une compréhension multimodale approfondie, mais se concentrent principalement sur les outils de manipulation d'images, laissant un vide vers des modèles agentiques plus polyvalents. Dans ce travail, nous revisitons la tâche de géolocalisation, qui nécessite non seulement un ancrage visuel nuancé mais aussi une recherche web pour confirmer ou affiner les hypothèses durant le raisonnement. Étant donné que les benchmarks existants en géolocalisation ne répondent pas aux besoins en imagerie haute résolution et au défi de localisation pour un raisonnement agentique approfondi, nous constituons GeoBench, un benchmark incluant des photos et panoramas du monde entier, ainsi qu'un sous-ensemble d'images satellites de différentes villes pour évaluer rigoureusement la capacité de géolocalisation des modèles agentiques. Nous proposons également GeoVista, un modèle agentique qui intègre de manière transparente l'invocation d'outils dans la boucle de raisonnement, incluant un outil de zoom sur image pour agrandir les régions d'intérêt et un outil de recherche web pour récupérer des informations web connexes. Nous développons une pipeline d'entraînement complète pour celui-ci, comprenant une étape de fine-tuning supervisé (SFT) à froid pour apprendre les schémas de raisonnement et les connaissances préalables sur l'utilisation des outils, suivie d'une étape d'apprentissage par renforcement (RL) pour améliorer davantage la capacité de raisonnement. Nous adoptons une récompense hiérarchique pour tirer parti des informations géographiques multi-niveaux et améliorer les performances globales de géolocalisation. Les résultats expérimentaux montrent que GeoVista surpasse largement les autres modèles agentiques open-source sur la tâche de géolocalisation et atteint des performances comparables aux modèles propriétaires tels que Gemini-2.5-flash et GPT-5 sur la plupart des métriques.
English
Current research on agentic visual reasoning enables deep multimodal understanding but primarily focuses on image manipulation tools, leaving a gap toward more general-purpose agentic models. In this work, we revisit the geolocalization task, which requires not only nuanced visual grounding but also web search to confirm or refine hypotheses during reasoning. Since existing geolocalization benchmarks fail to meet the need for high-resolution imagery and the localization challenge for deep agentic reasoning, we curate GeoBench, a benchmark that includes photos and panoramas from around the world, along with a subset of satellite images of different cities to rigorously evaluate the geolocalization ability of agentic models. We also propose GeoVista, an agentic model that seamlessly integrates tool invocation within the reasoning loop, including an image-zoom-in tool to magnify regions of interest and a web-search tool to retrieve related web information. We develop a complete training pipeline for it, including a cold-start supervised fine-tuning (SFT) stage to learn reasoning patterns and tool-use priors, followed by a reinforcement learning (RL) stage to further enhance reasoning ability. We adopt a hierarchical reward to leverage multi-level geographical information and improve overall geolocalization performance. Experimental results show that GeoVista surpasses other open-source agentic models on the geolocalization task greatly and achieves performance comparable to closed-source models such as Gemini-2.5-flash and GPT-5 on most metrics.