Visueel Redeneren via Gereedschaps-gestuurd Versterkend Leren

Samenvatting

In dit artikel onderzoeken we het probleem van het effectief beheersen van toolgebruik om complexe visuele redeneertaken op te lossen voor Multimodale Large Language Models. Om dit te bereiken, stellen we een nieuw Tool-supervised Reinforcement Learning (ToolsRL)-raamwerk voor, met directe toolsupervisie voor effectievere aanleer van toolgebruik. We richten ons op een reeks eenvoudige, native en interpreteerbare visuele tools, waaronder inzoomen, roteren, spiegelen en tekenen van punten/lijnen, waarvan de toolsupervisie eenvoudig te verzamelen is. Er wordt een reinforcement learning-curriculum ontwikkeld, waarbij de eerste fase uitsluitend wordt geoptimaliseerd door een set goed gemotiveerde tool-specifieke beloningen, en de tweede fase wordt getraind met op nauwkeurigheid gerichte beloningen terwijl het aanroepen van tools is toegestaan. Op deze manier wordt de toolaanroepprocedure beheerst voordat tools worden ingezet om visuele redeneertaken uit te voeren, waardoor een mogelijk optimalisatieconflict tussen deze heterogene taken wordt vermeden. Onze experimenten tonen aan dat de curriculumtraining met toolsupervisie efficiënt is en dat ToolsRL sterke toolgebruikscapaciteiten kan bereiken voor complexe visuele redeneertaken.

English

In this paper, we investigate the problem of how to effectively master tool-use to solve complex visual reasoning tasks for Multimodal Large Language Models. To achieve that, we propose a novel Tool-supervised Reinforcement Learning (ToolsRL) framework, with direct tool supervision for more effective tool-use learning. We focus on a series of simple, native, and interpretable visual tools, including zoom-in, rotate, flip, and draw point/line, whose tool supervision is easy to collect. A reinforcement learning curriculum is developed, where the first stage is solely optimized by a set of well motivated tool-specific rewards, and the second stage is trained with the accuracy targeted rewards while allowing calling tools. In this way, tool calling capability is mastered before using tools to complete visual reasoning tasks, avoiding the potential optimization conflict among those heterogeneous tasks. Our experiments have shown that the tool-supervised curriculum training is efficient and ToolsRL can achieve strong tool-use capabilities for complex visual reasoning tasks.

Visueel Redeneren via Gereedschaps-gestuurd Versterkend Leren

Visual Reasoning through Tool-supervised Reinforcement Learning

Samenvatting

Support