ChatPaper.aiChatPaper

Mise à l'échelle de l'apprentissage par renforcement agentique pour le raisonnement intégrant des outils dans les modèles visio-linguistiques

Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs

November 24, 2025
papers.authors: Meng Lu, Ran Xu, Yi Fang, Wenxuan Zhang, Yue Yu, Gaurav Srivastava, Yuchen Zhuang, Mohamed Elhoseiny, Charles Fleming, Carl Yang, Zhengzhong Tu, Yang Xie, Guanghua Xiao, Hanrui Wang, Di Jin, Wenqi Shi, Xuan Wang
cs.AI

papers.abstract

Si les modèles vision-langage (VLM) récents démontrent une solide compréhension d'image, leur capacité à « penser avec les images », c'est-à-dire à raisonner via des interactions visuelles multi-étapes, reste limitée. Nous présentons VISTA-Gym, un environnement d'entraînement évolutif conçu pour favoriser le développement de capacités de raisonnement visuel intégrant des outils chez les VLM. VISTA-Gym unifie diverses tâches de raisonnement multimodal du monde réel (7 tâches issues de 13 jeux de données au total) grâce à une interface standardisée pour les outils visuels (ex. : repérage, analyse syntaxique), des boucles d'interaction exécutables, des signaux de retour vérifiables et une journalisation efficace des trajectoires, permettant un apprentissage par renforcement agentique visuel à grande échelle. Bien que les VLM récents excellent en raisonnement purement textuel, les modèles propriétaires et open-source peinent encore avec la sélection, l'invocation et la coordination d'outils. Avec VISTA-Gym, nous entraînons VISTA-R1 à entrelacer l'utilisation d'outils avec un raisonnement agentique via un échantillonnage de trajectoires multi-tours et un apprentissage par renforcement de bout en bout. Des expériences approfondies sur 11 benchmarks publics exigeants en raisonnement (VQA) montrent que VISTA-R1-8B surpasse les meilleures méthodes de référence de tailles similaires de 9,51 % à 18,72 %, démontrant que VISTA-Gym constitue un terrain d'entraînement efficace pour libérer les capacités de raisonnement intégrant des outils des VLM.
English
While recent vision-language models (VLMs) demonstrate strong image understanding, their ability to "think with images", i.e., to reason through multi-step visual interactions, remains limited. We introduce VISTA-Gym, a scalable training environment for incentivizing tool-integrated visual reasoning capabilities in VLMs. VISTA-Gym unifies diverse real-world multimodal reasoning tasks (7 tasks from 13 datasets in total) with a standardized interface for visual tools (e.g., grounding, parsing), executable interaction loops, verifiable feedback signals, and efficient trajectory logging, enabling visual agentic reinforcement learning at scale. While recent VLMs exhibit strong text-only reasoning, both proprietary and open-source models still struggle with tool selection, invocation, and coordination. With VISTA-Gym, we train VISTA-R1 to interleave tool-use with agentic reasoning via multi-turn trajectory sampling and end-to-end reinforcement learning. Extensive experiments across 11 public reasoning-intensive VQA benchmarks show that VISTA-R1-8B outperforms state-of-the-art baselines with similar sizes by 9.51%-18.72%, demonstrating VISTA-Gym as an effective training ground to unlock the tool-integrated reasoning capabilities for VLMs.
PDF92December 1, 2025