ChatPaper.aiChatPaper

GeoVista: 位置推定のためのWeb拡張エージェント視覚推論

GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization

November 19, 2025
著者: Yikun Wang, Zuyan Liu, Ziyi Wang, Pengfei Liu, Han Hu, Yongming Rao
cs.AI

要旨

現在のエージェント的視覚推論に関する研究は、深層マルチモーダル理解を可能にしているものの、主に画像操作ツールに焦点が当てられており、より汎用性の高いエージェント的モデルへの発展には隔たりが生じている。本研究では、微妙な視覚的接地だけでなく、推論過程で仮説を確認または洗練させるためのウェブ検索も必要とするジオローカライゼーション(地理的位置特定)タスクを再検討する。既存のジオローカライゼーションのベンチマークは、高解像度画像へのニーズや、深層エージェント的推論における位置特定の課題を満たせていないため、世界中の写真やパノラマ、さらに様々な都市の衛星画像のサブセットを含むベンチマーク「GeoBench」を構築し、エージェント的モデルのジオローカライゼーション能力を厳密に評価する。また、「GeoVista」というエージェント的モデルを提案する。これは、関心領域を拡大する画像拡大ツールや、関連するウェブ情報を取得するウェブ検索ツールを含む、推論ループ内でのツール呼び出しをシームレスに統合するモデルである。これに対して、推論パターンとツール使用の事前知識を学習するコールドスタートの教師ありファインチューニング(SFT)段階と、推論能力をさらに強化する強化学習(RL)段階を含む、完全なトレーニングパイプラインを開発した。マルチレベルな地理情報を活用し、全体的なジオローカライゼーション性能を向上させるため、階層的な報酬を採用する。実験結果では、GeoVistaがジオローカライゼーションタスクにおいて他のオープンソースのエージェント的モデルを大きく上回り、ほとんどの指標でGemini-2.5-flashやGPT-5といったクローズドソースモデルに匹敵する性能を達成することが示されている。
English
Current research on agentic visual reasoning enables deep multimodal understanding but primarily focuses on image manipulation tools, leaving a gap toward more general-purpose agentic models. In this work, we revisit the geolocalization task, which requires not only nuanced visual grounding but also web search to confirm or refine hypotheses during reasoning. Since existing geolocalization benchmarks fail to meet the need for high-resolution imagery and the localization challenge for deep agentic reasoning, we curate GeoBench, a benchmark that includes photos and panoramas from around the world, along with a subset of satellite images of different cities to rigorously evaluate the geolocalization ability of agentic models. We also propose GeoVista, an agentic model that seamlessly integrates tool invocation within the reasoning loop, including an image-zoom-in tool to magnify regions of interest and a web-search tool to retrieve related web information. We develop a complete training pipeline for it, including a cold-start supervised fine-tuning (SFT) stage to learn reasoning patterns and tool-use priors, followed by a reinforcement learning (RL) stage to further enhance reasoning ability. We adopt a hierarchical reward to leverage multi-level geographical information and improve overall geolocalization performance. Experimental results show that GeoVista surpasses other open-source agentic models on the geolocalization task greatly and achieves performance comparable to closed-source models such as Gemini-2.5-flash and GPT-5 on most metrics.
PDF893December 1, 2025