Ajuste fino de LLMs multimodales con ART: Entrenamiento por refuerzo basado en arte

Resumen

Existen dos técnicas principales de Ajuste Fino Eficiente en Parámetros (PEFT) para Modelos de Lenguaje de Gran Escala (LLMs). Mientras que la Adaptación de Bajo Rango (LoRA) introduce pesos adicionales entre las capas del LLM, la Inserción Suave de Indicaciones (Soft Prompting) introduce tokens brutos adicionales específicos del ajuste fino en la entrada del LLM. Sin embargo, ambas requieren modificaciones en los grafos computacionales de los LLMs precompilados y preoptimizados. Como resultado, ninguna cuenta con soporte completo en motores de alto rendimiento como vLLM. Proponemos un ajuste fino con ART (Entrenamiento mediante Refuerzo Basado en Arte). Este método inyecta información en un Modelo de Lenguaje de Gran Escala Multimodal (MLLM) congelado, optimizando únicamente su entrada visual bruta, lo que permite el enfoque de tokens suaves sobre grafos computacionales precompilados. Se basa en la retropropagación de gradientes hacia una matriz de píxeles plana y, por lo tanto, admite cualquier objetivo de ajuste fino. Además, la entrada visual optimizada puede estilizarse como obras de arte computacionales relevantes para la tarea. La efectividad del enfoque se confirma para diferentes tamaños de una arquitectura Qwen abierta popular y para varios puntos de referencia textuales. En concreto, ART alcanza una precisión competitiva con LoRA en puntos de referencia de matemáticas y de uso estructurado de herramientas.

English

There are two main Parameter-Efficient Fine-Tuning (PEFT) techniques for Large Language Models (LLMs). While Low-Rank Adaptation (LoRA) introduces additional weights between the LLM layers, Soft Prompting introduces additional fine-tuning-specific raw tokens to an LLM input. However, both require modification to the computational graphs of precompiled, preoptimized LLMs. As a result, neither is fully supported in high-throughput engines like vLLM. We propose fine-tuning with ART (Art-based Reinforcement Training). The method injects information into a frozen Multimodal Large Language Model (MLLM) by optimizing only its raw visual input, thus enabling the soft-token approach on pre-compiled computational graphs. It relies on backpropagation of gradients back into a plain pixel array and thus supports any fine-tuning objective. Moreover, the optimized visual input can be stylized as task-relevant computational artworks. The approach's effectiveness is confirmed for different sizes of a popular open Qwen architecture and for several textual benchmarks. Specifically, ART reaches accuracy competitive with LoRA across mathematics and structured-tool-use benchmarks.