GeoVista: Ragionamento Visivo Agente Aumentato dal Web per la Geolocalizzazione
GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization
November 19, 2025
Autori: Yikun Wang, Zuyan Liu, Ziyi Wang, Pengfei Liu, Han Hu, Yongming Rao
cs.AI
Abstract
La ricerca attuale sul ragionamento visivo agentico consente una comprensione multimodale approfondita, ma si concentra principalmente su strumenti di manipolazione delle immagini, lasciando un vuoto verso modelli agentici più generalisti. In questo lavoro, esaminiamo nuovamente il compito di geolocalizzazione, che richiede non solo un grounding visivo sfumato ma anche la ricerca web per confermare o affinare le ipotesi durante il ragionamento. Poiché i benchmark di geolocalizzazione esistenti non soddisfano la necessità di immagini ad alta risoluzione e la sfida di localizzazione per un ragionamento agentico profondo, abbiamo curato GeoBench, un benchmark che include foto e panorami da tutto il mondo, insieme a un sottoinsieme di immagini satellitari di diverse città, per valutare rigorosamente l'abilità di geolocalizzazione dei modelli agentici. Proponiamo inoltre GeoVista, un modello agentico che integra perfettamente l'invocazione di strumenti all'interno del ciclo di ragionamento, includendo uno strumento di zoom sull'immagine per ingrandire le regioni di interesse e uno strumento di ricerca web per recuperare informazioni correlate dal web. Sviluppiamo una pipeline di addestramento completa per esso, che include una fase iniziale di supervised fine-tuning (SFT) per apprendere pattern di ragionamento e conoscenze pregiane sull'uso degli strumenti, seguita da una fase di reinforcement learning (RL) per migliorare ulteriormente l'abilità di ragionamento. Adottiamo un reward gerarchico per sfruttare le informazioni geografiche multilivello e migliorare le prestazioni complessive di geolocalizzazione. I risultati sperimentali mostrano che GeoVista supera di gran lunga altri modelli agentici open-source nel compito di geolocalizzazione e raggiunge prestazioni paragonabili a modelli closed-source come Gemini-2.5-flash e GPT-5 sulla maggior parte delle metriche.
English
Current research on agentic visual reasoning enables deep multimodal understanding but primarily focuses on image manipulation tools, leaving a gap toward more general-purpose agentic models. In this work, we revisit the geolocalization task, which requires not only nuanced visual grounding but also web search to confirm or refine hypotheses during reasoning. Since existing geolocalization benchmarks fail to meet the need for high-resolution imagery and the localization challenge for deep agentic reasoning, we curate GeoBench, a benchmark that includes photos and panoramas from around the world, along with a subset of satellite images of different cities to rigorously evaluate the geolocalization ability of agentic models. We also propose GeoVista, an agentic model that seamlessly integrates tool invocation within the reasoning loop, including an image-zoom-in tool to magnify regions of interest and a web-search tool to retrieve related web information. We develop a complete training pipeline for it, including a cold-start supervised fine-tuning (SFT) stage to learn reasoning patterns and tool-use priors, followed by a reinforcement learning (RL) stage to further enhance reasoning ability. We adopt a hierarchical reward to leverage multi-level geographical information and improve overall geolocalization performance. Experimental results show that GeoVista surpasses other open-source agentic models on the geolocalization task greatly and achieves performance comparable to closed-source models such as Gemini-2.5-flash and GPT-5 on most metrics.