ChatPaper.aiChatPaper

GraLoRA: Adaptación Granular de Bajo Rango para el Ajuste Fino Eficiente en Parámetros

GraLoRA: Granular Low-Rank Adaptation for Parameter-Efficient Fine-Tuning

May 26, 2025
Autores: Yeonjoon Jung, Daehyun Ahn, Hyungjun Kim, Taesu Kim, Eunhyeok Park
cs.AI

Resumen

La Adaptación de Bajo Rango (LoRA) es un método popular para el ajuste fino eficiente en parámetros (PEFT) de modelos generativos, valorado por su simplicidad y efectividad. A pesar de las mejoras recientes, LoRA aún sufre una limitación fundamental: el sobreajuste cuando se amplía el cuello de botella. Funciona mejor en rangos de 32 a 64, pero su precisión se estanca o disminuye en rangos más altos, sin alcanzar el rendimiento del ajuste fino completo (FFT). Identificamos la causa raíz como el cuello de botella estructural de LoRA, que introduce entrelazamiento de gradientes en los canales de entrada no relacionados y distorsiona la propagación del gradiente. Para abordar esto, presentamos una nueva estructura, la Adaptación de Bajo Rango Granular (GraLoRA), que divide las matrices de peso en sub-bloques, cada uno con su propio adaptador de bajo rango. Con un costo computacional o de almacenamiento insignificante, GraLoRA supera las limitaciones de LoRA, aumenta efectivamente la capacidad de representación y se aproxima más al comportamiento de FFT. Los experimentos en benchmarks de generación de código y razonamiento de sentido común muestran que GraLoRA supera consistentemente a LoRA y otras líneas base, logrando una ganancia absoluta de hasta +8.5% en Pass@1 en HumanEval+. Estas mejoras se mantienen en diferentes tamaños de modelos y configuraciones de rango, convirtiendo a GraLoRA en una solución escalable y robusta para PEFT. El código, datos y scripts están disponibles en https://github.com/SqueezeBits/GraLoRA.git.
English
Low-Rank Adaptation (LoRA) is a popular method for parameter-efficient fine-tuning (PEFT) of generative models, valued for its simplicity and effectiveness. Despite recent enhancements, LoRA still suffers from a fundamental limitation: overfitting when the bottleneck is widened. It performs best at ranks 32-64, yet its accuracy stagnates or declines at higher ranks, still falling short of full fine-tuning (FFT) performance. We identify the root cause as LoRA's structural bottleneck, which introduces gradient entanglement to the unrelated input channels and distorts gradient propagation. To address this, we introduce a novel structure, Granular Low-Rank Adaptation (GraLoRA) that partitions weight matrices into sub-blocks, each with its own low-rank adapter. With negligible computational or storage cost, GraLoRA overcomes LoRA's limitations, effectively increases the representational capacity, and more closely approximates FFT behavior. Experiments on code generation and commonsense reasoning benchmarks show that GraLoRA consistently outperforms LoRA and other baselines, achieving up to +8.5% absolute gain in Pass@1 on HumanEval+. These improvements hold across model sizes and rank settings, making GraLoRA a scalable and robust solution for PEFT. Code, data, and scripts are available at https://github.com/SqueezeBits/GraLoRA.git

Summary

AI-Generated Summary

PDF362May 28, 2025