Масштабирование агентного обучения с подкреплением для инструментального мышления в визуально-языковых моделях
Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs
November 24, 2025
Авторы: Meng Lu, Ran Xu, Yi Fang, Wenxuan Zhang, Yue Yu, Gaurav Srivastava, Yuchen Zhuang, Mohamed Elhoseiny, Charles Fleming, Carl Yang, Zhengzhong Tu, Yang Xie, Guanghua Xiao, Hanrui Wang, Di Jin, Wenqi Shi, Xuan Wang
cs.AI
Аннотация
Хотя современные модели «визуальный язык» (VLM) демонстрируют высокое понимание изображений, их способность «мыслить образами», то есть рассуждать в ходе многошаговых визуальных взаимодействий, остается ограниченной. Мы представляем VISTA-Gym — масштабируемую среду обучения для развития способностей VLM к визуальному рассуждению с интеграцией инструментов. VISTA-Gym унифицирует разнообразные задачи мультимодального reasoning в реальных условиях (всего 7 задач из 13 наборов данных) с помощью стандартизированного интерфейса для визуальных инструментов (например, grounding, parsing), исполняемых циклов взаимодействия, проверяемых сигналов обратной связи и эффективного журналирования траекторий, что позволяет проводить агентное обучение с подкреплением в визуальной среде в больших масштабах. Хотя современные VLM показывают высокие результаты в текстовом reasoning, как проприетарные, так и открытые модели по-прежнему испытывают трудности с выбором, вызовом и координацией инструментов. С помощью VISTA-Gym мы обучаем модель VISTA-R1 чередовать использование инструментов с агентным reasoning посредством многоходового сэмплирования траекторий и сквозного обучения с подкреплением. Экстенсивные эксперименты на 11 публичных benchmarks VQA, требующих интенсивного рассуждения, показывают, что VISTA-R1-8B превосходит современные базовые модели схожего размера на 9.51%–18.72%, что демонстрирует эффективность VISTA-Gym как тренировочной площадки для раскрытия способностей VLM к reasoning с интеграцией инструментов.
English
While recent vision-language models (VLMs) demonstrate strong image understanding, their ability to "think with images", i.e., to reason through multi-step visual interactions, remains limited. We introduce VISTA-Gym, a scalable training environment for incentivizing tool-integrated visual reasoning capabilities in VLMs. VISTA-Gym unifies diverse real-world multimodal reasoning tasks (7 tasks from 13 datasets in total) with a standardized interface for visual tools (e.g., grounding, parsing), executable interaction loops, verifiable feedback signals, and efficient trajectory logging, enabling visual agentic reinforcement learning at scale. While recent VLMs exhibit strong text-only reasoning, both proprietary and open-source models still struggle with tool selection, invocation, and coordination. With VISTA-Gym, we train VISTA-R1 to interleave tool-use with agentic reasoning via multi-turn trajectory sampling and end-to-end reinforcement learning. Extensive experiments across 11 public reasoning-intensive VQA benchmarks show that VISTA-R1-8B outperforms state-of-the-art baselines with similar sizes by 9.51%-18.72%, demonstrating VISTA-Gym as an effective training ground to unlock the tool-integrated reasoning capabilities for VLMs.