Scalabilità dell'Apprendimento per Rinforzo Agente per il Ragionamento con Strumenti Integrati nei Modelli Linguistici Visivi
Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs
November 24, 2025
Autori: Meng Lu, Ran Xu, Yi Fang, Wenxuan Zhang, Yue Yu, Gaurav Srivastava, Yuchen Zhuang, Mohamed Elhoseiny, Charles Fleming, Carl Yang, Zhengzhong Tu, Yang Xie, Guanghua Xiao, Hanrui Wang, Di Jin, Wenqi Shi, Xuan Wang
cs.AI
Abstract
Sebbene i recenti modelli visione-linguaggio (VLM) dimostrino una solida comprensione delle immagini, la loro capacità di "pensare con le immagini", ovvero di ragionare attraverso interazioni visive multi-step, rimane limitata. Introduciamo VISTA-Gym, un ambiente di training scalabile progettato per incentivare capacità di ragionamento visivo integrate con strumenti nei VLM. VISTA-Gym unifica diversi task di ragionamento multimodale del mondo reale (7 task provenienti da 13 dataset in totale) attraverso un'interfaccia standardizzata per strumenti visivi (es. grounding, parsing), loop di interazione eseguibili, segnali di feedback verificabili e una registrazione efficiente delle traiettorie, consentendo reinforcement learning agente-visivo su larga scala. Sebbene i VLM recenti mostrino un forte ragionamento puramente testuale, sia i modelli proprietari che quelli open-source incontrano ancora difficoltà nella selezione, invocazione e coordinamento degli strumenti. Utilizzando VISTA-Gym, addestriamo VISTA-R1 a intervallare l'uso di strumenti con il ragionamento agente mediante campionamento di traiettorie multi-turn e reinforcement learning end-to-end. Esperimenti estesi su 11 benchmark pubblici di VQA ad alta intensità di ragionamento mostrano che VISTA-R1-8B supera i baseline state-of-the-art di dimensioni simili del 9.51%-18.72%, dimostrando che VISTA-Gym è un terreno di training efficace per sbloccare le capacità di ragionamento integrate con strumenti per i VLM.
English
While recent vision-language models (VLMs) demonstrate strong image understanding, their ability to "think with images", i.e., to reason through multi-step visual interactions, remains limited. We introduce VISTA-Gym, a scalable training environment for incentivizing tool-integrated visual reasoning capabilities in VLMs. VISTA-Gym unifies diverse real-world multimodal reasoning tasks (7 tasks from 13 datasets in total) with a standardized interface for visual tools (e.g., grounding, parsing), executable interaction loops, verifiable feedback signals, and efficient trajectory logging, enabling visual agentic reinforcement learning at scale. While recent VLMs exhibit strong text-only reasoning, both proprietary and open-source models still struggle with tool selection, invocation, and coordination. With VISTA-Gym, we train VISTA-R1 to interleave tool-use with agentic reasoning via multi-turn trajectory sampling and end-to-end reinforcement learning. Extensive experiments across 11 public reasoning-intensive VQA benchmarks show that VISTA-R1-8B outperforms state-of-the-art baselines with similar sizes by 9.51%-18.72%, demonstrating VISTA-Gym as an effective training ground to unlock the tool-integrated reasoning capabilities for VLMs.