GraLoRA: Adattamento Granulare a Basso Rango per un Fine-Tuning Efficiente in Termini di Parametri
GraLoRA: Granular Low-Rank Adaptation for Parameter-Efficient Fine-Tuning
May 26, 2025
Autori: Yeonjoon Jung, Daehyun Ahn, Hyungjun Kim, Taesu Kim, Eunhyeok Park
cs.AI
Abstract
La Low-Rank Adaptation (LoRA) è un metodo popolare per il fine-tuning efficiente in termini di parametri (PEFT) di modelli generativi, apprezzato per la sua semplicità ed efficacia. Nonostante i recenti miglioramenti, LoRA soffre ancora di una limitazione fondamentale: l'overfitting quando il collo di bottiglia viene ampliato. Funziona al meglio con ranghi compresi tra 32 e 64, ma la sua accuratezza ristagna o diminuisce a ranghi più elevati, rimanendo comunque inferiore alle prestazioni del fine-tuning completo (FFT). Identifichiamo la causa principale nel collo di bottiglia strutturale di LoRA, che introduce un intreccio di gradienti nei canali di input non correlati e distorce la propagazione del gradiente. Per risolvere questo problema, introduciamo una nuova struttura, la Granular Low-Rank Adaptation (GraLoRA), che suddivide le matrici dei pesi in sottoblocchi, ciascuno con il proprio adattatore a basso rango. Con un costo computazionale o di archiviazione trascurabile, GraLoRA supera i limiti di LoRA, aumenta efficacemente la capacità rappresentativa e si avvicina maggiormente al comportamento del FFT. Esperimenti su benchmark di generazione di codice e ragionamento di senso comune dimostrano che GraLoRA supera costantemente LoRA e altre baseline, raggiungendo un guadagno assoluto fino a +8,5% in Pass@1 su HumanEval+. Questi miglioramenti si mantengono su diverse dimensioni del modello e impostazioni di rango, rendendo GraLoRA una soluzione scalabile e robusta per il PEFT. Codice, dati e script sono disponibili all'indirizzo https://github.com/SqueezeBits/GraLoRA.git.
English
Low-Rank Adaptation (LoRA) is a popular method for parameter-efficient
fine-tuning (PEFT) of generative models, valued for its simplicity and
effectiveness. Despite recent enhancements, LoRA still suffers from a
fundamental limitation: overfitting when the bottleneck is widened. It performs
best at ranks 32-64, yet its accuracy stagnates or declines at higher ranks,
still falling short of full fine-tuning (FFT) performance. We identify the root
cause as LoRA's structural bottleneck, which introduces gradient entanglement
to the unrelated input channels and distorts gradient propagation. To address
this, we introduce a novel structure, Granular Low-Rank Adaptation (GraLoRA)
that partitions weight matrices into sub-blocks, each with its own low-rank
adapter. With negligible computational or storage cost, GraLoRA overcomes
LoRA's limitations, effectively increases the representational capacity, and
more closely approximates FFT behavior. Experiments on code generation and
commonsense reasoning benchmarks show that GraLoRA consistently outperforms
LoRA and other baselines, achieving up to +8.5% absolute gain in Pass@1 on
HumanEval+. These improvements hold across model sizes and rank settings,
making GraLoRA a scalable and robust solution for PEFT. Code, data, and scripts
are available at https://github.com/SqueezeBits/GraLoRA.git