GeoVista: Web-augmented, agentisch visueel redeneren voor geolokalisatie
GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization
November 19, 2025
Auteurs: Yikun Wang, Zuyan Liu, Ziyi Wang, Pengfei Liu, Han Hu, Yongming Rao
cs.AI
Samenvatting
Huidig onderzoek naar agent-gebaseerd visueel redeneren maakt diepe multimodale begripsvorming mogelijk, maar richt zich voornamelijk op beeldbewerkingsgereedschappen, waardoor een kloof ontstaat naar algemenere agent-gebaseerde modellen. In dit werk herbezien we de taak van geolokalisatie, die niet alleen genuanceerde visuele verankering vereist, maar ook zoeken op het web om hypothesen tijdens het redeneerproces te bevestigen of te verfijnen. Omdat bestaande geolokalisatiebenchmarks niet voldoen aan de behoefte aan hoogwaardige beeldresolutie en de lokalisatie-uitdaging voor diep agent-gebaseerd redeneren, stellen we GeoBench samen: een benchmark die foto's en panorama's van over de hele wereld omvat, samen met een subset van satellietbeelden van verschillende steden om het geolokalisatievermogen van agent-modellen rigoureus te evalueren. We introduceren tevens GeoVista, een agent-model dat gereedschapsaanroeping naadloos integreert in de redeneerlus, inclusief een zoomgereedschap om gebieden van interesse te vergroten en een zoekgereedschap om gerelateerde webinformatie op te halen. We ontwikkelen een complete trainingspijplijn hiervoor, bestaande uit een initiële supervised fine-tuning (SFT)-fase om redeneerpatronen en gereedschapsgebruik aan te leren, gevolgd door een reinforcement learning (RL)-fase om het redeneervermogen verder te versterken. We gebruiken een hiërarchische beloning om gebruik te maken van meerniveau geografische informatie en de algehele geolokalisatieprestatie te verbeteren. Experimentele resultaten tonen aan dat GeoVista andere open-source agent-modellen voor de geolokalisatietaak aanzienlijk overtreft en op de meeste metrieken prestaties bereikt die vergelijkbaar zijn met closed-source modellen zoals Gemini-2.5-flash en GPT-5.
English
Current research on agentic visual reasoning enables deep multimodal understanding but primarily focuses on image manipulation tools, leaving a gap toward more general-purpose agentic models. In this work, we revisit the geolocalization task, which requires not only nuanced visual grounding but also web search to confirm or refine hypotheses during reasoning. Since existing geolocalization benchmarks fail to meet the need for high-resolution imagery and the localization challenge for deep agentic reasoning, we curate GeoBench, a benchmark that includes photos and panoramas from around the world, along with a subset of satellite images of different cities to rigorously evaluate the geolocalization ability of agentic models. We also propose GeoVista, an agentic model that seamlessly integrates tool invocation within the reasoning loop, including an image-zoom-in tool to magnify regions of interest and a web-search tool to retrieve related web information. We develop a complete training pipeline for it, including a cold-start supervised fine-tuning (SFT) stage to learn reasoning patterns and tool-use priors, followed by a reinforcement learning (RL) stage to further enhance reasoning ability. We adopt a hierarchical reward to leverage multi-level geographical information and improve overall geolocalization performance. Experimental results show that GeoVista surpasses other open-source agentic models on the geolocalization task greatly and achieves performance comparable to closed-source models such as Gemini-2.5-flash and GPT-5 on most metrics.