ChatPaper.aiChatPaper

GeoVista: Агентное визуальное рассуждение с веб-усилением для геолокации

GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization

November 19, 2025
Авторы: Yikun Wang, Zuyan Liu, Ziyi Wang, Pengfei Liu, Han Hu, Yongming Rao
cs.AI

Аннотация

Современные исследования в области агентного визуального мышления обеспечивают глубокое мультимодальное понимание, но в основном сосредоточены на инструментах манипуляции с изображениями, оставляя пробел в сторону более универсальных агентных моделей. В данной работе мы возвращаемся к задаче геолокализации, которая требует не только тонкого визуального заземления, но и веб-поиска для подтверждения или уточнения гипотез в процессе рассуждений. Поскольку существующие бенчмарки геолокализации не удовлетворяют потребность в высокодетальных изображениях и вызовах локализации для глубокого агентного мышления, мы создали GeoBench — бенчмарк, включающий фотографии и панорамы со всего мира, а также поднабор спутниковых снимков различных городов для тщательной оценки способности агентных моделей к геолокализации. Мы также предлагаем GeoVista, агентную модель, которая бесшовно интегрирует вызов инструментов в цикл рассуждений, включая инструмент увеличения изображения для детализации областей интереса и инструмент веб-поиска для получения связанной информации из сети. Мы разработали для нее полный конвейер обучения, включая начальный этап контролируемого тонкого обучения (SFT) для изучения шаблонов рассуждений и априорных знаний об использовании инструментов, за которым следует этап обучения с подкреплением (RL) для дальнейшего улучшения способности к рассуждениям. Мы применяем иерархическое вознаграждение для использования многоуровневой географической информации и повышения общей производительности геолокализации. Экспериментальные результаты показывают, что GeoVista значительно превосходит другие открытые агентные модели в задаче геолокализации и демонстрирует результаты, сопоставимые с закрытыми моделями, такими как Gemini-2.5-flash и GPT-5, по большинству метрик.
English
Current research on agentic visual reasoning enables deep multimodal understanding but primarily focuses on image manipulation tools, leaving a gap toward more general-purpose agentic models. In this work, we revisit the geolocalization task, which requires not only nuanced visual grounding but also web search to confirm or refine hypotheses during reasoning. Since existing geolocalization benchmarks fail to meet the need for high-resolution imagery and the localization challenge for deep agentic reasoning, we curate GeoBench, a benchmark that includes photos and panoramas from around the world, along with a subset of satellite images of different cities to rigorously evaluate the geolocalization ability of agentic models. We also propose GeoVista, an agentic model that seamlessly integrates tool invocation within the reasoning loop, including an image-zoom-in tool to magnify regions of interest and a web-search tool to retrieve related web information. We develop a complete training pipeline for it, including a cold-start supervised fine-tuning (SFT) stage to learn reasoning patterns and tool-use priors, followed by a reinforcement learning (RL) stage to further enhance reasoning ability. We adopt a hierarchical reward to leverage multi-level geographical information and improve overall geolocalization performance. Experimental results show that GeoVista surpasses other open-source agentic models on the geolocalization task greatly and achieves performance comparable to closed-source models such as Gemini-2.5-flash and GPT-5 on most metrics.
PDF893December 1, 2025