도구 통합 추론을 위한 VLMs의 행위자 강화 학습 확장
Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs
November 24, 2025
저자: Meng Lu, Ran Xu, Yi Fang, Wenxuan Zhang, Yue Yu, Gaurav Srivastava, Yuchen Zhuang, Mohamed Elhoseiny, Charles Fleming, Carl Yang, Zhengzhong Tu, Yang Xie, Guanghua Xiao, Hanrui Wang, Di Jin, Wenqi Shi, Xuan Wang
cs.AI
초록
최근 비전-언어 모델(VLMs)은 강력한 이미지 이해 능력을 보여주지만, "이미지로 사고"하는 능력, 즉 다단계 시각적 상호작용을 통한 추론 능력은 여전히 제한적입니다. 본 연구에서는 VLMs의 도구 통합 시각 추론 능력을 강화하기 위한 확장 가능한 훈련 환경인 VISTA-Gym을 소개합니다. VISTA-Gym은 다양한 실제 다중모드 추론 과제(총 13개 데이터셋의 7개 과제)를 표준화된 시각 도구(예: grounding, parsing) 인터페이스, 실행 가능한 상호작용 루프, 검증 가능한 피드백 신호, 효율적인 궤적 기록으로 통합하여 대규모 시각 에이전트 강화 학습을 가능하게 합니다. 최근 VLMs이 텍스트 기반 추론에서는 강력한 성능을 보이지만, 사유 및 오픈소스 모델 모두 도구 선택, 호출, 조정에 어려움을 겪고 있습니다. VISTA-Gym을 통해 우리는 다중 회기 궤적 샘플링과 종단간 강화 학습을 통해 VISTA-R1이 에이전트 추론과 도구 사용을 교차적으로 수행하도록 훈련시켰습니다. 11개의 공개 추론 집중형 VQA 벤치마크에서 진행한 폭넓은 실험 결과, VISTA-R1-8B가 유사한 규모의 최첨단 기준 모델들을 9.51%~18.72% 앞섰으며, 이는 VISTA-Gym이 VLMs의 도구 통합 추론 능력을 개방하는 효과적인 훈련 장임을 입증합니다.
English
While recent vision-language models (VLMs) demonstrate strong image understanding, their ability to "think with images", i.e., to reason through multi-step visual interactions, remains limited. We introduce VISTA-Gym, a scalable training environment for incentivizing tool-integrated visual reasoning capabilities in VLMs. VISTA-Gym unifies diverse real-world multimodal reasoning tasks (7 tasks from 13 datasets in total) with a standardized interface for visual tools (e.g., grounding, parsing), executable interaction loops, verifiable feedback signals, and efficient trajectory logging, enabling visual agentic reinforcement learning at scale. While recent VLMs exhibit strong text-only reasoning, both proprietary and open-source models still struggle with tool selection, invocation, and coordination. With VISTA-Gym, we train VISTA-R1 to interleave tool-use with agentic reasoning via multi-turn trajectory sampling and end-to-end reinforcement learning. Extensive experiments across 11 public reasoning-intensive VQA benchmarks show that VISTA-R1-8B outperforms state-of-the-art baselines with similar sizes by 9.51%-18.72%, demonstrating VISTA-Gym as an effective training ground to unlock the tool-integrated reasoning capabilities for VLMs.