GeoVista: Raciocínio Visual Agente Aumentado pela Web para Geolocalização

Resumo

A investigação atual em raciocínio visual agentico permite uma compreensão multimodal profunda, mas concentra-se principalmente em ferramentas de manipulação de imagens, deixando uma lacuna em relação a modelos agenticos de propósito mais geral. Neste trabalho, revisitamos a tarefa de geolocalização, que exige não apenas uma fundamentação visual nuancesada, mas também pesquisa na web para confirmar ou refinar hipóteses durante o raciocínio. Uma vez que os benchmarks de geolocalização existentes não satisfazem a necessidade de imagens de alta resolução e o desafio de localização para um raciocínio agentico profundo, criámos o GeoBench, um benchmark que inclui fotos e panoramas de todo o mundo, juntamente com um subconjunto de imagens de satélite de diferentes cidades, para avaliar rigorosamente a capacidade de geolocalização de modelos agenticos. Propomos também o GeoVista, um modelo agentico que integra perfeitamente a invocação de ferramentas dentro do ciclo de raciocínio, incluindo uma ferramenta de ampliação de imagem para aumentar regiões de interesse e uma ferramenta de pesquisa na web para recuperar informações relacionadas da internet. Desenvolvemos um pipeline de treino completo para o mesmo, incluindo uma fase de *fine-tuning* supervisionado (SFT) de arranque a frio para aprender padrões de raciocínio e *priors* de uso de ferramentas, seguida de uma fase de aprendizagem por reforço (RL) para melhorar ainda mais a capacidade de raciocínio. Adotamos uma recompensa hierárquica para aproveitar informações geográficas multi-nível e melhorar o desempenho global de geolocalização. Os resultados experimentais mostram que o GeoVista supera largamente outros modelos agenticos de código aberto na tarefa de geolocalização e alcança um desempenho comparável a modelos de código fechado, como o Gemini-2.5-flash e o GPT-5, na maioria das métricas.

English

Current research on agentic visual reasoning enables deep multimodal understanding but primarily focuses on image manipulation tools, leaving a gap toward more general-purpose agentic models. In this work, we revisit the geolocalization task, which requires not only nuanced visual grounding but also web search to confirm or refine hypotheses during reasoning. Since existing geolocalization benchmarks fail to meet the need for high-resolution imagery and the localization challenge for deep agentic reasoning, we curate GeoBench, a benchmark that includes photos and panoramas from around the world, along with a subset of satellite images of different cities to rigorously evaluate the geolocalization ability of agentic models. We also propose GeoVista, an agentic model that seamlessly integrates tool invocation within the reasoning loop, including an image-zoom-in tool to magnify regions of interest and a web-search tool to retrieve related web information. We develop a complete training pipeline for it, including a cold-start supervised fine-tuning (SFT) stage to learn reasoning patterns and tool-use priors, followed by a reinforcement learning (RL) stage to further enhance reasoning ability. We adopt a hierarchical reward to leverage multi-level geographical information and improve overall geolocalization performance. Experimental results show that GeoVista surpasses other open-source agentic models on the geolocalization task greatly and achieves performance comparable to closed-source models such as Gemini-2.5-flash and GPT-5 on most metrics.

GeoVista: Raciocínio Visual Agente Aumentado pela Web para Geolocalização

GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization

Resumo

Support