Visuelles Denken durch werkzeugüberwachtes Verstärkungslernen

Zusammenfassung

In diesem Artikel untersuchen wir das Problem, wie multimodale große Sprachmodelle den effektiven Einsatz von Werkzeugen zur Lösung komplexer visueller Reasoning-Aufgaben erlernen können. Hierfür schlagen wir einen neuartigen Framework für werkzeugüberwachtes Reinforcement Learning (ToolsRL) vor, der eine direkte Werkzeugüberwachung für effektiveres Lernen des Werkzeugeinsatzes ermöglicht. Wir konzentrieren uns auf eine Reihe einfacher, nativer und interpretierbarer visueller Werkzeuge wie Hereinzoomen, Drehen, Spiegeln und Zeichnen von Punkten/Linien, deren Werkzeugüberwachung einfach zu erfassen ist. Ein Reinforcement-Learning-Curriculum wird entwickelt, bei dem die erste Stufe ausschließlich durch einen Satz wohlmotivierter werkzeugspezifischer Belohnungen optimiert wird und die zweite Stufe mit auf Genauigkeit ausgerichteten Belohnungen trainiert wird, während der Aufruf von Werkzeugen ermöglicht wird. Auf diese Weise wird die Fähigkeit zum Werkzeugaufruf beherrscht, bevor Werkzeuge zur Lösung visueller Reasoning-Aufgaben eingesetzt werden, wodurch potenzielle Optimierungskonflikte zwischen diesen heterogenen Aufgaben vermieden werden. Unsere Experimente haben gezeigt, dass das werkzeugüberwachte Curriculum-Training effizient ist und ToolsRL starke Fähigkeiten im Werkzeugeinsatz für komplexe visuelle Reasoning-Aufgaben erreichen kann.

English

In this paper, we investigate the problem of how to effectively master tool-use to solve complex visual reasoning tasks for Multimodal Large Language Models. To achieve that, we propose a novel Tool-supervised Reinforcement Learning (ToolsRL) framework, with direct tool supervision for more effective tool-use learning. We focus on a series of simple, native, and interpretable visual tools, including zoom-in, rotate, flip, and draw point/line, whose tool supervision is easy to collect. A reinforcement learning curriculum is developed, where the first stage is solely optimized by a set of well motivated tool-specific rewards, and the second stage is trained with the accuracy targeted rewards while allowing calling tools. In this way, tool calling capability is mastered before using tools to complete visual reasoning tasks, avoiding the potential optimization conflict among those heterogeneous tasks. Our experiments have shown that the tool-supervised curriculum training is efficient and ToolsRL can achieve strong tool-use capabilities for complex visual reasoning tasks.

Visuelles Denken durch werkzeugüberwachtes Verstärkungslernen

Visual Reasoning through Tool-supervised Reinforcement Learning

Zusammenfassung

Support