ChatPaper.aiChatPaper

ツール統合推論におけるVLMのためのエージェンシック強化学習のスケーリング

Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs

November 24, 2025
著者: Meng Lu, Ran Xu, Yi Fang, Wenxuan Zhang, Yue Yu, Gaurav Srivastava, Yuchen Zhuang, Mohamed Elhoseiny, Charles Fleming, Carl Yang, Zhengzhong Tu, Yang Xie, Guanghua Xiao, Hanrui Wang, Di Jin, Wenqi Shi, Xuan Wang
cs.AI

要旨

近年の視覚言語モデル(VLM)は画像理解において優れた性能を示すが、「画像を用いた思考」、すなわち多段階の視覚的インタラクションを通じた推論能力は依然として限界がある。本論文では、VLMにツール統合型の視覚推論能力を習得させるためのスケーラブルな訓練環境であるVISTA-Gymを提案する。VISTA-Gymは、多様な実世界のマルチモーダル推論タスク(合計13データセットの7タスク)を、視覚ツール(グラウンディング、解析など)の標準化インターフェース、実行可能なインタラクションループ、検証可能なフィードバック信号、効率的な軌道記録により統合し、大規模な視覚的エージェント強化学習を可能にする。近年のVLMはテキストのみの推論では強力だが、プロプライエタリ・オープンソース双方のモデルは、ツールの選択、呼び出し、調整に依然として課題を抱えている。VISTA-Gymを用いて、我々はVISTA-R1を、多ターン軌道サンプリングとエンドツーエンドの強化学習を通じて、ツール利用とエージェント推論を交互に行うように訓練した。11の公開推論集中型VQAベンチマークにおける大規模な実験により、VISTA-R1-8Bは同規模の最先端ベースラインを9.51%~18.72%上回り、VISTA-GymがVLMのツール統合型推論能力を解放する効果的な訓練環境であることを実証した。
English
While recent vision-language models (VLMs) demonstrate strong image understanding, their ability to "think with images", i.e., to reason through multi-step visual interactions, remains limited. We introduce VISTA-Gym, a scalable training environment for incentivizing tool-integrated visual reasoning capabilities in VLMs. VISTA-Gym unifies diverse real-world multimodal reasoning tasks (7 tasks from 13 datasets in total) with a standardized interface for visual tools (e.g., grounding, parsing), executable interaction loops, verifiable feedback signals, and efficient trajectory logging, enabling visual agentic reinforcement learning at scale. While recent VLMs exhibit strong text-only reasoning, both proprietary and open-source models still struggle with tool selection, invocation, and coordination. With VISTA-Gym, we train VISTA-R1 to interleave tool-use with agentic reasoning via multi-turn trajectory sampling and end-to-end reinforcement learning. Extensive experiments across 11 public reasoning-intensive VQA benchmarks show that VISTA-R1-8B outperforms state-of-the-art baselines with similar sizes by 9.51%-18.72%, demonstrating VISTA-Gym as an effective training ground to unlock the tool-integrated reasoning capabilities for VLMs.
PDF92December 1, 2025