Визуальное рассуждение через инструментально-контролируемое обучение с подкреплением

Аннотация

В данной статье мы исследуем проблему эффективного освоения использования инструментов многомодальными большими языковыми моделями для решения сложных задач визуального мышления. Для этого мы предлагаем новую структуру Обучения с Подкреплением под Наблюдением Инструментов (ToolsRL), которая обеспечивает прямое наблюдение за инструментами для более эффективного обучения их применению. Мы фокусируемся на ряде простых, нативных и интерпретируемых визуальных инструментов, включая увеличение, поворот, отражение и рисование точек/линий, данные для наблюдения за которыми легко собрать. Разработан учебный план обучения с подкреплением, в котором первая стадия оптимизируется исключительно за счет набора хорошо обоснованных вознаграждений, специфичных для каждого инструмента, а вторая стадия обучается с вознаграждениями, нацеленными на точность, при этом разрешая вызов инструментов. Таким образом, способность к вызову инструментов осваивается до их использования для решения задач визуального мышления, что позволяет избежать потенциального конфликта оптимизации между этими разнородными задачами. Наши эксперименты показали, что учебный план с наблюдением за инструментами является эффективным, и ToolsRL позволяет достичь высоких способностей к использованию инструментов для решения сложных задач визуального мышления.

English

In this paper, we investigate the problem of how to effectively master tool-use to solve complex visual reasoning tasks for Multimodal Large Language Models. To achieve that, we propose a novel Tool-supervised Reinforcement Learning (ToolsRL) framework, with direct tool supervision for more effective tool-use learning. We focus on a series of simple, native, and interpretable visual tools, including zoom-in, rotate, flip, and draw point/line, whose tool supervision is easy to collect. A reinforcement learning curriculum is developed, where the first stage is solely optimized by a set of well motivated tool-specific rewards, and the second stage is trained with the accuracy targeted rewards while allowing calling tools. In this way, tool calling capability is mastered before using tools to complete visual reasoning tasks, avoiding the potential optimization conflict among those heterogeneous tasks. Our experiments have shown that the tool-supervised curriculum training is efficient and ToolsRL can achieve strong tool-use capabilities for complex visual reasoning tasks.

Визуальное рассуждение через инструментально-контролируемое обучение с подкреплением

Visual Reasoning through Tool-supervised Reinforcement Learning

Аннотация

Support