Raisonnement Visuel par Apprentissage par Renforcement Supervisé par Outils

Résumé

Dans cet article, nous étudions le problème de la maîtrise efficace de l'utilisation d'outils pour résoudre des tâches complexes de raisonnement visuel par les modèles de langage multimodaux de grande taille. Pour y parvenir, nous proposons un nouveau cadre d'apprentissage par renforcement supervisé par outils (ToolsRL), avec une supervision directe des outils pour un apprentissage plus efficace de leur utilisation. Nous nous concentrons sur une série d'outils visuels simples, natifs et interprétables, incluant le zoom avant, la rotation, le retournement et le dessin de points/lignes, dont la supervision est facile à collecter. Un curriculum d'apprentissage par renforcement est développé, où la première étape est optimisée uniquement par un ensemble de récompenses spécifiques aux outils, et la seconde étape est entraînée avec des récompenses ciblant la précision tout en autorisant l'appel aux outils. Ainsi, la capacité d'appel des outils est maîtrisée avant de les utiliser pour accomplir des tâches de raisonnement visuel, évitant un conflit d'optimisation potentiel entre ces tâches hétérogènes. Nos expériences ont montré que l'entraînement curriculaire supervisé par outils est efficace et que ToolsRL peut atteindre de solides capacités d'utilisation d'outils pour des tâches complexes de raisonnement visuel.

English

In this paper, we investigate the problem of how to effectively master tool-use to solve complex visual reasoning tasks for Multimodal Large Language Models. To achieve that, we propose a novel Tool-supervised Reinforcement Learning (ToolsRL) framework, with direct tool supervision for more effective tool-use learning. We focus on a series of simple, native, and interpretable visual tools, including zoom-in, rotate, flip, and draw point/line, whose tool supervision is easy to collect. A reinforcement learning curriculum is developed, where the first stage is solely optimized by a set of well motivated tool-specific rewards, and the second stage is trained with the accuracy targeted rewards while allowing calling tools. In this way, tool calling capability is mastered before using tools to complete visual reasoning tasks, avoiding the potential optimization conflict among those heterogeneous tasks. Our experiments have shown that the tool-supervised curriculum training is efficient and ToolsRL can achieve strong tool-use capabilities for complex visual reasoning tasks.

Raisonnement Visuel par Apprentissage par Renforcement Supervisé par Outils

Visual Reasoning through Tool-supervised Reinforcement Learning

Résumé

Support