ChatPaper.aiChatPaper

GeoVista: Web-gestütztes agentenbasiertes visuelles Schließen zur Geolokalisierung

GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization

November 19, 2025
papers.authors: Yikun Wang, Zuyan Liu, Ziyi Wang, Pengfei Liu, Han Hu, Yongming Rao
cs.AI

papers.abstract

Aktuelle Forschung zu agentenbasiertem visuellem Schließen ermöglicht ein tiefgreifendes multimodales Verständnis, konzentriert sich jedoch primär auf Bildbearbeitungswerkzeuge, was eine Lücke hin zu allgemeineren agentenbasierten Modellen offenlässt. In dieser Arbeit widmen wir uns erneut der Geolokalisierungsaufgabe, die nicht nur nuanciertes visuelles Grounding, sondern auch Websuche erfordert, um Hypothesen während des Schlussfolgerns zu bestätigen oder zu verfeinern. Da bestehende Geolokalisierungs-Benchmarks den Bedarf an hochauflösenden Bildern und die Lokalisierungsherausforderung für tiefgehendes agentenbasiertes Schließen nicht erfüllen, stellen wir GeoBench zusammen – einen Benchmark, der Fotos und Panoramen aus der ganzen Welt sowie einen Teilbestand an Satellitenbildern verschiedener Städte umfasst, um die Geolokalisierungsfähigkeit agentenbasierter Modelle rigoros zu evaluieren. Wir schlagen zudem GeoVista vor, ein agentenbasiertes Modell, das Werkzeugaufrufe nahtlos in die Schlussfolgerschleife integriert, einschließlich eines Bild-Zoom-Werkzeugs zur Vergrößerung relevanter Regionen und eines Web-Such-Werkzeugs zum Abruf relevanter Webinformationen. Wir entwickeln eine vollständige Trainingspipeline dafür, bestehend aus einer Cold-Start-Supervised-Fine-Tuning (SFT)-Phase zum Erlernen von Schlussfolgerungsmustern und Vorwissen zur Werkzeugnutzung, gefolgt von einer Reinforcement-Learning (RL)-Phase zur weiteren Steigerung der Schlussfolgerungsfähigkeit. Wir setzen einen hierarchischen Reward ein, um mehrstufige geografische Informationen zu nutzen und die gesamte Geolokalisierungsleistung zu verbessern. Experimentelle Ergebnisse zeigen, dass GeoVista andere Open-Source-agentenbasierte Modelle bei der Geolokalisierungsaufgabe deutlich übertrifft und bei den meisten Metriken eine mit Closed-Source-Modellen wie Gemini-2.5-Flash und GPT-5 vergleichbare Leistung erzielt.
English
Current research on agentic visual reasoning enables deep multimodal understanding but primarily focuses on image manipulation tools, leaving a gap toward more general-purpose agentic models. In this work, we revisit the geolocalization task, which requires not only nuanced visual grounding but also web search to confirm or refine hypotheses during reasoning. Since existing geolocalization benchmarks fail to meet the need for high-resolution imagery and the localization challenge for deep agentic reasoning, we curate GeoBench, a benchmark that includes photos and panoramas from around the world, along with a subset of satellite images of different cities to rigorously evaluate the geolocalization ability of agentic models. We also propose GeoVista, an agentic model that seamlessly integrates tool invocation within the reasoning loop, including an image-zoom-in tool to magnify regions of interest and a web-search tool to retrieve related web information. We develop a complete training pipeline for it, including a cold-start supervised fine-tuning (SFT) stage to learn reasoning patterns and tool-use priors, followed by a reinforcement learning (RL) stage to further enhance reasoning ability. We adopt a hierarchical reward to leverage multi-level geographical information and improve overall geolocalization performance. Experimental results show that GeoVista surpasses other open-source agentic models on the geolocalization task greatly and achieves performance comparable to closed-source models such as Gemini-2.5-flash and GPT-5 on most metrics.
PDF893December 1, 2025