ChatPaper.aiChatPaper

Escalado del Aprendizaje por Refuerzo Agéntico para el Razonamiento con Integración de Herramientas en VLMs

Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs

November 24, 2025
Autores: Meng Lu, Ran Xu, Yi Fang, Wenxuan Zhang, Yue Yu, Gaurav Srivastava, Yuchen Zhuang, Mohamed Elhoseiny, Charles Fleming, Carl Yang, Zhengzhong Tu, Yang Xie, Guanghua Xiao, Hanrui Wang, Di Jin, Wenqi Shi, Xuan Wang
cs.AI

Resumen

Si bien los modelos de visión y lenguaje (VLM) recientes demuestran una sólida comprensión de imágenes, su capacidad para "pensar con imágenes", es decir, razonar a través de interacciones visuales multi-etapa, sigue siendo limitada. Presentamos VISTA-Gym, un entorno de entrenamiento escalable para incentivar capacidades de razonamiento visual integrado con herramientas en los VLM. VISTA-Gym unifica diversas tareas de razonamiento multimodal del mundo real (7 tareas de 13 conjuntos de datos en total) con una interfaz estandarizada para herramientas visuales (por ejemplo, segmentación, análisis), bucles de interacción ejecutables, señales de retroalimentación verificables y registro eficiente de trayectorias, permitiendo el aprendizaje por refuerzo agéntico visual a escala. Si bien los VLM recientes exhiben un razonamiento sólido solo con texto, tanto los modelos propietarios como los de código abierto aún tienen dificultades con la selección, invocación y coordinación de herramientas. Con VISTA-Gym, entrenamos a VISTA-R1 para intercalar el uso de herramientas con el razonamiento agéntico mediante muestreo de trayectorias multi-turno y aprendizaje por refuerzo de extremo a extremo. Experimentos exhaustivos en 11 benchmarks públicos de VQA intensivos en razonamiento muestran que VISTA-R1-8B supera a los métodos de última generación de tamaños similares en un 9.51%-18.72%, demostrando que VISTA-Gym es un terreno de entrenamiento efectivo para desbloquear las capacidades de razonamiento integrado con herramientas en los VLM.
English
While recent vision-language models (VLMs) demonstrate strong image understanding, their ability to "think with images", i.e., to reason through multi-step visual interactions, remains limited. We introduce VISTA-Gym, a scalable training environment for incentivizing tool-integrated visual reasoning capabilities in VLMs. VISTA-Gym unifies diverse real-world multimodal reasoning tasks (7 tasks from 13 datasets in total) with a standardized interface for visual tools (e.g., grounding, parsing), executable interaction loops, verifiable feedback signals, and efficient trajectory logging, enabling visual agentic reinforcement learning at scale. While recent VLMs exhibit strong text-only reasoning, both proprietary and open-source models still struggle with tool selection, invocation, and coordination. With VISTA-Gym, we train VISTA-R1 to interleave tool-use with agentic reasoning via multi-turn trajectory sampling and end-to-end reinforcement learning. Extensive experiments across 11 public reasoning-intensive VQA benchmarks show that VISTA-R1-8B outperforms state-of-the-art baselines with similar sizes by 9.51%-18.72%, demonstrating VISTA-Gym as an effective training ground to unlock the tool-integrated reasoning capabilities for VLMs.
PDF92December 1, 2025