Ragionamento Visivo tramite Apprendimento per Rinforzo Supervisionato da Strumenti

Abstract

In questo articolo, analizziamo il problema di come padroneggiare efficacemente l'uso di strumenti per risolvere compiti complessi di ragionamento visivo per i Modelli Linguistici Multimodali di Grande Dimensioni. A tal fine, proponiamo una nuova framework di Apprendimento per Rinforzo Supervisionato da Strumenti (ToolsRL), con supervisione diretta degli strumenti per un apprendimento più efficace del loro utilizzo. Ci concentriamo su una serie di strumenti visivi semplici, nativi e interpretabili, tra cui zoom, rotazione, ribaltamento e disegno di punti/linee, la cui supervisione è facile da raccogliere. Viene sviluppato un curriculum di apprendimento per rinforzo, in cui la prima fase è ottimizzata esclusivamente da un insieme di reward specifici per strumento ben motivati, e la seconda fase è addestrata con reward mirati all'accuratezza consentendo al contempo la chiamata degli strumenti. In questo modo, la capacità di chiamare gli strumenti viene padroneggiata prima di utilizzarli per completare i compiti di ragionamento visivo, evitando il potenziale conflitto di ottimizzazione tra questi compiti eterogenei. I nostri esperimenti hanno dimostrato che l'addestramento curriculare supervisionato da strumenti è efficiente e che ToolsRL può raggiungere solide capacità di utilizzo degli strumenti per compiti complessi di ragionamento visivo.

English

In this paper, we investigate the problem of how to effectively master tool-use to solve complex visual reasoning tasks for Multimodal Large Language Models. To achieve that, we propose a novel Tool-supervised Reinforcement Learning (ToolsRL) framework, with direct tool supervision for more effective tool-use learning. We focus on a series of simple, native, and interpretable visual tools, including zoom-in, rotate, flip, and draw point/line, whose tool supervision is easy to collect. A reinforcement learning curriculum is developed, where the first stage is solely optimized by a set of well motivated tool-specific rewards, and the second stage is trained with the accuracy targeted rewards while allowing calling tools. In this way, tool calling capability is mastered before using tools to complete visual reasoning tasks, avoiding the potential optimization conflict among those heterogeneous tasks. Our experiments have shown that the tool-supervised curriculum training is efficient and ToolsRL can achieve strong tool-use capabilities for complex visual reasoning tasks.

Ragionamento Visivo tramite Apprendimento per Rinforzo Supervisionato da Strumenti

Visual Reasoning through Tool-supervised Reinforcement Learning

Abstract

Support