Schaalvergroting van Agent-gebaseerd Versterkingsleren voor Gereedschapsgeïntegreerd Redeneren in Visueel-Taalmodellen
Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs
November 24, 2025
Auteurs: Meng Lu, Ran Xu, Yi Fang, Wenxuan Zhang, Yue Yu, Gaurav Srivastava, Yuchen Zhuang, Mohamed Elhoseiny, Charles Fleming, Carl Yang, Zhengzhong Tu, Yang Xie, Guanghua Xiao, Hanrui Wang, Di Jin, Wenqi Shi, Xuan Wang
cs.AI
Samenvatting
Hoewel recente vision-language modellen (VLM's) een sterk beeldbegrip vertonen, blijft hun vermogen om "te denken met beelden" – dat wil zeggen, om te redeneren via meerstaps visuele interacties – beperkt. Wij introduceren VISTA-Gym, een schaalbare trainingsomgeving voor het stimuleren van tool-geïntegreerde visuele redeneervaardigheden in VLM's. VISTA-Gym verenigt diverse multimodale redeneertaken uit de praktijk (7 taken uit in totaal 13 datasets) met een gestandaardiseerde interface voor visuele tools (bijv. grounding, parsing), uitvoerbare interactielussen, verifieerbare feedbacksignalen en efficiënte trajectlogging, waardoor agent-gebaseerd reinforcement learning op visueel gebied op schaal mogelijk wordt. Hoewel recente VLM's sterk tekstueel redeneren vertonen, worstelen zowel propriëtaire als open-source modellen nog steeds met toolselectie, -aanroeping en -coördinatie. Met VISTA-Gym trainen we VISTA-R1 om toolgebruik te verweven met agent-gebaseerd redeneren via multi-turn trajectoriële bemonstering en end-to-end reinforcement learning. Uitgebreide experimenten op 11 publieke, redenatie-intensieve VQA-benchmarks tonen aan dat VISTA-R1-8B state-of-the-art baselines van vergelijkbare grootte met 9.51%–18.72% overtreft, wat aantoont dat VISTA-Gym een effectieve trainingsomgeving is om de tool-geïntegreerde redeneercapaciteiten van VLM's te ontsluiten.
English
While recent vision-language models (VLMs) demonstrate strong image understanding, their ability to "think with images", i.e., to reason through multi-step visual interactions, remains limited. We introduce VISTA-Gym, a scalable training environment for incentivizing tool-integrated visual reasoning capabilities in VLMs. VISTA-Gym unifies diverse real-world multimodal reasoning tasks (7 tasks from 13 datasets in total) with a standardized interface for visual tools (e.g., grounding, parsing), executable interaction loops, verifiable feedback signals, and efficient trajectory logging, enabling visual agentic reinforcement learning at scale. While recent VLMs exhibit strong text-only reasoning, both proprietary and open-source models still struggle with tool selection, invocation, and coordination. With VISTA-Gym, we train VISTA-R1 to interleave tool-use with agentic reasoning via multi-turn trajectory sampling and end-to-end reinforcement learning. Extensive experiments across 11 public reasoning-intensive VQA benchmarks show that VISTA-R1-8B outperforms state-of-the-art baselines with similar sizes by 9.51%-18.72%, demonstrating VISTA-Gym as an effective training ground to unlock the tool-integrated reasoning capabilities for VLMs.