Escalando o Aprendizado por Reforço Agente para Raciocínio com Integração de Ferramentas em VLMs
Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs
November 24, 2025
Autores: Meng Lu, Ran Xu, Yi Fang, Wenxuan Zhang, Yue Yu, Gaurav Srivastava, Yuchen Zhuang, Mohamed Elhoseiny, Charles Fleming, Carl Yang, Zhengzhong Tu, Yang Xie, Guanghua Xiao, Hanrui Wang, Di Jin, Wenqi Shi, Xuan Wang
cs.AI
Resumo
Embora os modelos visuais-linguísticos (VLMs) recentes demonstrem forte compreensão de imagens, sua capacidade de "pensar com imagens", ou seja, raciocinar por meio de interações visuais multi-etapas, permanece limitada. Apresentamos o VISTA-Gym, um ambiente de treinamento escalável para incentivar capacidades de raciocínio visual integrado a ferramentas em VLMs. O VISTA-Gym unifica diversas tarefas de raciocínio multimodal do mundo real (7 tarefas de 13 conjuntos de dados no total) com uma interface padronizada para ferramentas visuais (ex.: localização, análise sintática), loops de interação executáveis, sinais de feedback verificáveis e registro eficiente de trajetórias, permitindo o aprendizado por reforço agentivo visual em escala. Embora VLMs recentes exibam forte raciocínio apenas com texto, tanto modelos proprietários quanto de código aberto ainda lutam com seleção, invocação e coordenação de ferramentas. Com o VISTA-Gym, treinamos o VISTA-R1 para intercalar o uso de ferramentas com raciocínio agentivo por meio de amostragem de trajetória multi-turno e aprendizado por reforço de ponta a ponta. Experimentos extensos em 11 benchmarks públicos de VQA intensivos em raciocínio mostram que o VISTA-R1-8B supera as linhas de base state-of-the-art de tamanhos similares em 9,51%-18,72%, demonstrando o VISTA-Gym como um campo de treinamento eficaz para liberar as capacidades de raciocínio integrado a ferramentas para VLMs.
English
While recent vision-language models (VLMs) demonstrate strong image understanding, their ability to "think with images", i.e., to reason through multi-step visual interactions, remains limited. We introduce VISTA-Gym, a scalable training environment for incentivizing tool-integrated visual reasoning capabilities in VLMs. VISTA-Gym unifies diverse real-world multimodal reasoning tasks (7 tasks from 13 datasets in total) with a standardized interface for visual tools (e.g., grounding, parsing), executable interaction loops, verifiable feedback signals, and efficient trajectory logging, enabling visual agentic reinforcement learning at scale. While recent VLMs exhibit strong text-only reasoning, both proprietary and open-source models still struggle with tool selection, invocation, and coordination. With VISTA-Gym, we train VISTA-R1 to interleave tool-use with agentic reasoning via multi-turn trajectory sampling and end-to-end reinforcement learning. Extensive experiments across 11 public reasoning-intensive VQA benchmarks show that VISTA-R1-8B outperforms state-of-the-art baselines with similar sizes by 9.51%-18.72%, demonstrating VISTA-Gym as an effective training ground to unlock the tool-integrated reasoning capabilities for VLMs.