Raciocínio Visual por meio de Aprendizagem por Reforço Supervisionada por Ferramentas
Visual Reasoning through Tool-supervised Reinforcement Learning
April 21, 2026
Autores: Qihua Dong, Gozde Sahin, Pei Wang, Zhaowei Cai, Robik Shrestha, Hao Yang, Davide Modolo
cs.AI
Resumo
Neste artigo, investigamos o problema de como dominar efetivamente o uso de ferramentas para resolver tarefas complexas de raciocínio visual em Modelos de Linguagem Multimodais de Grande Escala. Para isso, propomos uma nova estrutura de Aprendizagem por Reforço Supervisionada por Ferramentas (ToolsRL), com supervisão direta de ferramentas para um aprendizado mais eficaz do seu uso. Concentramo-nos numa série de ferramentas visuais simples, nativas e interpretáveis, incluindo ampliação, rotação, inversão e desenho de pontos/linhas, cuja supervisão é fácil de coletar. Desenvolvemos um currículo de aprendizagem por reforço, no qual a primeira etapa é otimizada exclusivamente por um conjunto de recompensas específicas para ferramentas bem fundamentadas, e a segunda etapa é treinada com recompensas orientadas para a precisão, permitindo a chamada de ferramentas. Desta forma, a capacidade de chamada de ferramentas é dominada antes de as utilizar para completar tarefas de raciocínio visual, evitando o potencial conflito de otimização entre essas tarefas heterogéneas. Nossos experimentos demonstraram que o treino curricular supervisionado por ferramentas é eficiente e que o ToolsRL pode alcançar fortes capacidades de uso de ferramentas para tarefas complexas de raciocínio visual.
English
In this paper, we investigate the problem of how to effectively master tool-use to solve complex visual reasoning tasks for Multimodal Large Language Models. To achieve that, we propose a novel Tool-supervised Reinforcement Learning (ToolsRL) framework, with direct tool supervision for more effective tool-use learning. We focus on a series of simple, native, and interpretable visual tools, including zoom-in, rotate, flip, and draw point/line, whose tool supervision is easy to collect. A reinforcement learning curriculum is developed, where the first stage is solely optimized by a set of well motivated tool-specific rewards, and the second stage is trained with the accuracy targeted rewards while allowing calling tools. In this way, tool calling capability is mastered before using tools to complete visual reasoning tasks, avoiding the potential optimization conflict among those heterogeneous tasks. Our experiments have shown that the tool-supervised curriculum training is efficient and ToolsRL can achieve strong tool-use capabilities for complex visual reasoning tasks.