ChatPaper.aiChatPaper

GeoVista: 지리적 위치 추정을 위한 웹 증강 에이전트 시각 추론

GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization

November 19, 2025
저자: Yikun Wang, Zuyan Liu, Ziyi Wang, Pengfei Liu, Han Hu, Yongming Rao
cs.AI

초록

현재 에이전트 기반 시각 추론 연구는 심층 다중모달 이해를 가능하게 하지만 주로 이미지 조작 도구에 집중되어 있어 보다 일반적인 목적의 에이전트 모델 개발로의 공백이 존재합니다. 본 연구에서는 미묘한 시각적 기반 추론뿐만 아니라 추론 과정에서 가설을 확인하거나 정제하기 위한 웹 검색이 필요한 지리 위치 확인(geolocalization) 과제를 재조명합니다. 기존 지리 위치 확인 벤치마크는 고해상도 이미지에 대한 요구와 심층 에이전트 추론을 위한 위치 확인 과제의 난이도를 충족시키지 못하므로, 전 세계의 사진과 파노라마, 그리고 다양한 도시의 위성 이미지 하위 집합을 포함하여 에이전트 모델의 지리 위치 확인 능력을 엄격하게 평가할 수 있는 GeoBench 벤치마크를 구축했습니다. 또한 관심 영역을 확대하는 이미지 확대 도구와 관련 웹 정보를 검색하는 웹 검색 도구를 포함하여 추론 루프 내에서 도구 호출을 원활하게 통합하는 에이전트 모델 GeoVista를 제안합니다. 이를 위해 추론 패턴과 도구 사용 사전 지식을 학습하는 콜드 스타트 지도 미세 조정(SFT) 단계와 추론 능력을 추가로 향상시키는 강화 학습(RL) 단계로 구성된 완전한 학습 파이프라인을 개발했습니다. 다단계 지리 정보를 활용하여 전반적인 지리 위치 확인 성능을 개선하기 위해 계층적 보상 방식을 채택했습니다. 실험 결과 GeoVista는 지리 위치 확인 과제에서 다른 오픈소스 에이전트 모델을 크게 능가하며 대부분의 메트릭에서 Gemini-2.5-flash 및 GPT-5와 같은 클로즈드소스 모델에 버금가는 성능을 달성함을 보여줍니다.
English
Current research on agentic visual reasoning enables deep multimodal understanding but primarily focuses on image manipulation tools, leaving a gap toward more general-purpose agentic models. In this work, we revisit the geolocalization task, which requires not only nuanced visual grounding but also web search to confirm or refine hypotheses during reasoning. Since existing geolocalization benchmarks fail to meet the need for high-resolution imagery and the localization challenge for deep agentic reasoning, we curate GeoBench, a benchmark that includes photos and panoramas from around the world, along with a subset of satellite images of different cities to rigorously evaluate the geolocalization ability of agentic models. We also propose GeoVista, an agentic model that seamlessly integrates tool invocation within the reasoning loop, including an image-zoom-in tool to magnify regions of interest and a web-search tool to retrieve related web information. We develop a complete training pipeline for it, including a cold-start supervised fine-tuning (SFT) stage to learn reasoning patterns and tool-use priors, followed by a reinforcement learning (RL) stage to further enhance reasoning ability. We adopt a hierarchical reward to leverage multi-level geographical information and improve overall geolocalization performance. Experimental results show that GeoVista surpasses other open-source agentic models on the geolocalization task greatly and achieves performance comparable to closed-source models such as Gemini-2.5-flash and GPT-5 on most metrics.
PDF893December 1, 2025