지도와 함께 생각하기: 위치 추적을 위한 강화된 병렬 맵 증강 에이전트
Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization
January 8, 2026
저자: Yuxiang Ji, Yong Wang, Ziyu Ma, Yiming Hu, Hailang Huang, Xuecai Hu, Guanhua Chen, Liaoni Wu, Xiangxiang Chu
cs.AI
초록
이미지 지오로컬라이제이션 작업은 시각적 단서를 이용해 지구상 어디에서 촬영된 이미지인지 그 위치를 예측하는 것을 목표로 합니다. 기존의 대규모 시각-언어 모델(LVLM) 접근법은 세계 지식, 사고 연쇄 추론, 에이전트 능력을 활용하지만, 인간이 흔히 사용하는 전략인 지도 활용을 간과해 왔습니다. 본 연구에서는 먼저 모델에 지도 활용 능력(Thinking with Map)을 부여하고 이를 맵 내 에이전트 루프(agent-in-the-map loop)로 공식화합니다. 이를 위해 에이전트 강화 학습(RL)과 이후 병렬 시험 시간 스케일링(TTS)을 포함하는 두 단계 최적화 방안을 개발했습니다. RL은 샘플링 효율성을 높이기 위해 모델의 에이전트 능력을 강화하고, 병렬 TTS는 최종 예측 전에 모델이 여러 후보 경로를 탐색할 수 있게 하여 지오로컬라이제이션에至关重要的합니다. 최신 및 실생활 이미지에 대한 방법을 평가하기 위해, 전적으로 실제 세계 이미지로 구성된 포괄적인 지오로컬라이제이션 훈련 및 평가 벤치마크인 MAPBench을 추가로 제시합니다. 실험 결과, 우리의 방법이 대부분의 지표에서 기존의 오픈소스 및 클로즈드소스 모델을 능가하며, 특히 Google Search/Map 기반 모드를 적용한 Gemini-3-Pro 대비 Acc@500m을 8.0%에서 22.1%로 크게 향상시킴을 보여줍니다.
English
The image geolocalization task aims to predict the location where an image was taken anywhere on Earth using visual clues. Existing large vision-language model (LVLM) approaches leverage world knowledge, chain-of-thought reasoning, and agentic capabilities, but overlook a common strategy used by humans -- using maps. In this work, we first equip the model Thinking with Map ability and formulate it as an agent-in-the-map loop. We develop a two-stage optimization scheme for it, including agentic reinforcement learning (RL) followed by parallel test-time scaling (TTS). The RL strengthens the agentic capability of model to improve sampling efficiency, and the parallel TTS enables the model to explore multiple candidate paths before making the final prediction, which is crucial for geolocalization. To evaluate our method on up-to-date and in-the-wild images, we further present MAPBench, a comprehensive geolocalization training and evaluation benchmark composed entirely of real-world images. Experimental results show that our method outperforms existing open- and closed-source models on most metrics, specifically improving Acc@500m from 8.0\% to 22.1\% compared to Gemini-3-Pro with Google Search/Map grounded mode.