Fijnstemmen van Multimodale LLM's met ART: Kunstgebaseerde Versterkingstraining

Samenvatting

Er zijn twee belangrijke technieken voor parameter-efficiënte fijnafstemming (PEFT) van grote taalmodellen (GTM’s). Terwijl laagrangadaptatie (LoRA) extra gewichten tussen de GTM-lagen introduceert, voegt zachte prompting extra fijnafstemmingsspecifieke ruwe tokens toe aan een GTM-invoer. Beide vereisen echter aanpassingen aan de computationele grafen van voorgecompileerde, voorgeoptimaliseerde GTM’s. Hierdoor wordt geen van beide volledig ondersteund in doorvoerhoge engines zoals vLLM. Wij stellen fijnafstemming voor met ART (Art-based Reinforcement Training). De methode injecteert informatie in een bevroren multimodaal groot taalmodel (MGTM) door alleen de ruwe visuele invoer ervan te optimaliseren, waardoor de zachte-tokenbenadering op voorgecompileerde computationele grafen mogelijk wordt. Het vertrouwt op terugpropagatie van gradiënten naar een gewone pixelarray en ondersteunt daardoor elke fijnafstemmingsdoelstelling. Bovendien kan de geoptimaliseerde visuele invoer worden gestileerd als taakrelevante computationele kunstwerken. De effectiviteit van de aanpak wordt bevestigd voor verschillende groottes van een populaire open Qwen-architectuur en voor meerdere tekstuele benchmarks. In het bijzonder bereikt ART een nauwkeurigheid die concurrerend is met LoRA op benchmarks voor wiskunde en gestructureerd hulpmiddelgebruik.

English

There are two main Parameter-Efficient Fine-Tuning (PEFT) techniques for Large Language Models (LLMs). While Low-Rank Adaptation (LoRA) introduces additional weights between the LLM layers, Soft Prompting introduces additional fine-tuning-specific raw tokens to an LLM input. However, both require modification to the computational graphs of precompiled, preoptimized LLMs. As a result, neither is fully supported in high-throughput engines like vLLM. We propose fine-tuning with ART (Art-based Reinforcement Training). The method injects information into a frozen Multimodal Large Language Model (MLLM) by optimizing only its raw visual input, thus enabling the soft-token approach on pre-compiled computational graphs. It relies on backpropagation of gradients back into a plain pixel array and thus supports any fine-tuning objective. Moreover, the optimized visual input can be stylized as task-relevant computational artworks. The approach's effectiveness is confirmed for different sizes of a popular open Qwen architecture and for several textual benchmarks. Specifically, ART reaches accuracy competitive with LoRA across mathematics and structured-tool-use benchmarks.