Razonamiento Visual mediante Aprendizaje por Refuerzo Supervisado por Herramientas

Resumen

En este artículo, investigamos el problema de cómo dominar eficazmente el uso de herramientas para resolver tareas complejas de razonamiento visual en Modelos de Lenguaje Grandes Multimodales. Para lograrlo, proponemos un novedoso marco de Aprendizaje por Refuerzo Supervisado por Herramientas (ToolsRL), con supervisión directa de herramientas para un aprendizaje más efectivo de su uso. Nos centramos en una serie de herramientas visuales simples, nativas e interpretables, que incluyen acercamiento, rotación, volteo y dibujo de puntos/líneas, cuya supervisión es fácil de recopilar. Se desarrolla un currículum de aprendizaje por refuerzo, donde la primera etapa se optimiza únicamente mediante un conjunto de recompensas específicas para herramientas bien fundamentadas, y la segunda etapa se entrena con recompensas orientadas a la precisión mientras se permite la llamada a herramientas. De esta manera, se domina la capacidad de invocar herramientas antes de utilizarlas para completar tareas de razonamiento visual, evitando el posible conflicto de optimización entre esas tareas heterogéneas. Nuestros experimentos han demostrado que el entrenamiento curricular supervisado por herramientas es eficiente y que ToolsRL puede lograr sólidas capacidades de uso de herramientas para tareas complejas de razonamiento visual.

English

In this paper, we investigate the problem of how to effectively master tool-use to solve complex visual reasoning tasks for Multimodal Large Language Models. To achieve that, we propose a novel Tool-supervised Reinforcement Learning (ToolsRL) framework, with direct tool supervision for more effective tool-use learning. We focus on a series of simple, native, and interpretable visual tools, including zoom-in, rotate, flip, and draw point/line, whose tool supervision is easy to collect. A reinforcement learning curriculum is developed, where the first stage is solely optimized by a set of well motivated tool-specific rewards, and the second stage is trained with the accuracy targeted rewards while allowing calling tools. In this way, tool calling capability is mastered before using tools to complete visual reasoning tasks, avoiding the potential optimization conflict among those heterogeneous tasks. Our experiments have shown that the tool-supervised curriculum training is efficient and ToolsRL can achieve strong tool-use capabilities for complex visual reasoning tasks.

Razonamiento Visual mediante Aprendizaje por Refuerzo Supervisado por Herramientas

Visual Reasoning through Tool-supervised Reinforcement Learning

Resumen

Support