Дообучение мультимодальных LLM с помощью ART: обучение с подкреплением на основе искусства

Аннотация

Существует два основных метода параметроэффективной тонкой настройки (PEFT) для больших языковых моделей (LLM). В то время как низкоранговая адаптация (LoRA) вводит дополнительные веса между слоями LLM, мягкое подсказывание (Soft Prompting) добавляет в входные данные LLM дополнительные сырые токены, специфичные для задачи тонкой настройки. Однако оба метода требуют модификации вычислительных графов предварительно скомпилированных и оптимизированных LLM. В результате ни один из них не получает полной поддержки в высокопроизводительных движках, таких как vLLM. Мы предлагаем тонкую настройку с помощью ART (тренировка на основе искусства и подкрепления). Этот метод внедряет информацию в замороженную мультимодальную большую языковую модель (MLLM) путем оптимизации только её сырого визуального входа, тем самым реализуя подход мягких токенов на предварительно скомпилированных вычислительных графах. Он основан на обратном распространении градиентов обратно в простой массив пикселей и, следовательно, поддерживает любую целевую функцию тонкой настройки. Более того, оптимизированный визуальный вход может быть стилизован как вычислительные произведения искусства, релевантные задаче. Эффективность подхода подтверждена для разных размеров популярной открытой архитектуры Qwen и для нескольких текстовых бенчмарков. В частности, ART достигает точности, сопоставимой с LoRA, в задачах математики и структурированного использования инструментов.

English

There are two main Parameter-Efficient Fine-Tuning (PEFT) techniques for Large Language Models (LLMs). While Low-Rank Adaptation (LoRA) introduces additional weights between the LLM layers, Soft Prompting introduces additional fine-tuning-specific raw tokens to an LLM input. However, both require modification to the computational graphs of precompiled, preoptimized LLMs. As a result, neither is fully supported in high-throughput engines like vLLM. We propose fine-tuning with ART (Art-based Reinforcement Training). The method injects information into a frozen Multimodal Large Language Model (MLLM) by optimizing only its raw visual input, thus enabling the soft-token approach on pre-compiled computational graphs. It relies on backpropagation of gradients back into a plain pixel array and thus supports any fine-tuning objective. Moreover, the optimized visual input can be stylized as task-relevant computational artworks. The approach's effectiveness is confirmed for different sizes of a popular open Qwen architecture and for several textual benchmarks. Specifically, ART reaches accuracy competitive with LoRA across mathematics and structured-tool-use benchmarks.