Ajustement fin des LLMs multimodaux avec ART : entraînement par renforcement basé sur l'art

Résumé

Il existe deux principales techniques de fine-tuning paramétrique efficace (PEFT) pour les grands modèles de langage (LLM). Alors que l'adaptation à bas rang (LoRA) introduit des poids supplémentaires entre les couches du LLM, l'incitation logicielle (Soft Prompting) introduit des jetons bruts supplémentaires spécifiques au fine-tuning dans l'entrée d'un LLM. Cependant, toutes deux exigent une modification des graphes de calcul des LLM précompilés et préoptimisés. Par conséquent, aucune n'est pleinement prise en charge dans les moteurs à haut débit comme vLLM. Nous proposons un fine-tuning avec ART (Apprentissage par Renforcement basé sur l'Art). Cette méthode injecte des informations dans un grand modèle de langage multimodal (MLLM) figé en optimisant uniquement son entrée visuelle brute, permettant ainsi l'approche par jetons logiciels sur des graphes de calcul précompilés. Elle repose sur la rétropropagation des gradients vers un simple tableau de pixels et prend donc en charge tout objectif de fine-tuning. De plus, l'entrée visuelle optimisée peut être stylisée sous forme d'œuvres d'art computationnelles pertinentes pour la tâche. L'efficacité de l'approche est confirmée pour différentes tailles d'une architecture Qwen ouverte populaire et pour plusieurs références textuelles. Plus précisément, ART atteint une précision compétitive avec LoRA dans les références de mathématiques et d'utilisation d'outils structurés.

English

There are two main Parameter-Efficient Fine-Tuning (PEFT) techniques for Large Language Models (LLMs). While Low-Rank Adaptation (LoRA) introduces additional weights between the LLM layers, Soft Prompting introduces additional fine-tuning-specific raw tokens to an LLM input. However, both require modification to the computational graphs of precompiled, preoptimized LLMs. As a result, neither is fully supported in high-throughput engines like vLLM. We propose fine-tuning with ART (Art-based Reinforcement Training). The method injects information into a frozen Multimodal Large Language Model (MLLM) by optimizing only its raw visual input, thus enabling the soft-token approach on pre-compiled computational graphs. It relies on backpropagation of gradients back into a plain pixel array and thus supports any fine-tuning objective. Moreover, the optimized visual input can be stylized as task-relevant computational artworks. The approach's effectiveness is confirmed for different sizes of a popular open Qwen architecture and for several textual benchmarks. Specifically, ART reaches accuracy competitive with LoRA across mathematics and structured-tool-use benchmarks.