SingLoRA: Adaptación de Bajo Rango Utilizando una Única Matriz

Resumen

La Adaptación de Bajo Rango (LoRA) ha avanzado significativamente en el ajuste fino eficiente en parámetros de modelos grandes preentrenados. LoRA aumenta los pesos preentrenados de un modelo al agregar el producto de dos matrices más pequeñas que juntas forman una actualización de matriz de bajo rango. Investigaciones recientes han demostrado que las disparidades de escala entre estas dos matrices a menudo causan dinámicas de entrenamiento inestables, lo que conduce a un rendimiento subóptimo. En este artículo, proponemos SingLoRA, que reformula la adaptación de bajo rango al aprender la actualización de pesos como una descomposición de una única matriz de bajo rango multiplicada por su transpuesta. Este diseño simple elimina inherentemente los conflictos de escala entre matrices, asegurando una optimización estable y reduciendo aproximadamente a la mitad el número de parámetros. Analizamos SingLoRA dentro del marco de redes neuronales de ancho infinito, demostrando que garantiza un aprendizaje estable de características por construcción. Experimentos extensos en múltiples tareas validan estos beneficios. En razonamiento de sentido común, el ajuste fino de LLama 7B en MNLI con SingLoRA alcanza un 91.3% de precisión, superando a LoRA (89.1%) y LoRA+ (90.2%), mientras utiliza solo el 60% de su presupuesto de parámetros. En generación de imágenes, el ajuste fino de Stable Diffusion con SingLoRA mejora significativamente la fidelidad de las imágenes en DreamBooth, logrando una puntuación de similitud DINO de 0.151, en comparación con las puntuaciones de 0.148 y 0.143 para DoRA y LoRA, respectivamente.

English

Low-Rank Adaptation (LoRA) has significantly advanced parameter-efficient fine-tuning of large pretrained models. LoRA augments the pre-trained weights of a model by adding the product of two smaller matrices that together form a low-rank matrix update. Recent research has shown that scale disparities between these two matrices often cause unstable training dynamics, leading to suboptimal performance. In this paper, we propose SingLoRA, which reformulates low-rank adaptation by learning the weights update as a decomposition of a single low-rank matrix multiplied by its transpose. This simple design inherently removes inter-matrix scale conflicts, ensuring stable optimization, and roughly halves the parameter count. We analyze SingLoRA within the infinite-width neural network framework, showing that it guarantees stable feature learning by construction. Extensive experiments on multiple tasks validate these benefits. In common sense reasoning, fine-tuning LLama 7B on MNLI with SingLoRA achieves 91.3% accuracy - surpassing LoRA (89.1%) and LoRA+ (90.2%) - while using only 60% of their parameter budget. In image generation, fine-tuning Stable Diffusion with SingLoRA significantly improves image fidelity on DreamBooth, achieving a DINO similarity score of 0.151, compared to scores of 0.148 and 0.143 for DoRA and LoRA, respectively.

SingLoRA: Adaptación de Bajo Rango Utilizando una Única Matriz

SingLoRA: Low Rank Adaptation Using a Single Matrix

Resumen

Support