GraLoRA: Adattamento Granulare a Basso Rango per un Fine-Tuning Efficiente in Termini di Parametri

Abstract

La Low-Rank Adaptation (LoRA) è un metodo popolare per il fine-tuning efficiente in termini di parametri (PEFT) di modelli generativi, apprezzato per la sua semplicità ed efficacia. Nonostante i recenti miglioramenti, LoRA soffre ancora di una limitazione fondamentale: l'overfitting quando il collo di bottiglia viene ampliato. Funziona al meglio con ranghi compresi tra 32 e 64, ma la sua accuratezza ristagna o diminuisce a ranghi più elevati, rimanendo comunque inferiore alle prestazioni del fine-tuning completo (FFT). Identifichiamo la causa principale nel collo di bottiglia strutturale di LoRA, che introduce un intreccio di gradienti nei canali di input non correlati e distorce la propagazione del gradiente. Per risolvere questo problema, introduciamo una nuova struttura, la Granular Low-Rank Adaptation (GraLoRA), che suddivide le matrici dei pesi in sottoblocchi, ciascuno con il proprio adattatore a basso rango. Con un costo computazionale o di archiviazione trascurabile, GraLoRA supera i limiti di LoRA, aumenta efficacemente la capacità rappresentativa e si avvicina maggiormente al comportamento del FFT. Esperimenti su benchmark di generazione di codice e ragionamento di senso comune dimostrano che GraLoRA supera costantemente LoRA e altre baseline, raggiungendo un guadagno assoluto fino a +8,5% in Pass@1 su HumanEval+. Questi miglioramenti si mantengono su diverse dimensioni del modello e impostazioni di rango, rendendo GraLoRA una soluzione scalabile e robusta per il PEFT. Codice, dati e script sono disponibili all'indirizzo https://github.com/SqueezeBits/GraLoRA.git.

English

Low-Rank Adaptation (LoRA) is a popular method for parameter-efficient fine-tuning (PEFT) of generative models, valued for its simplicity and effectiveness. Despite recent enhancements, LoRA still suffers from a fundamental limitation: overfitting when the bottleneck is widened. It performs best at ranks 32-64, yet its accuracy stagnates or declines at higher ranks, still falling short of full fine-tuning (FFT) performance. We identify the root cause as LoRA's structural bottleneck, which introduces gradient entanglement to the unrelated input channels and distorts gradient propagation. To address this, we introduce a novel structure, Granular Low-Rank Adaptation (GraLoRA) that partitions weight matrices into sub-blocks, each with its own low-rank adapter. With negligible computational or storage cost, GraLoRA overcomes LoRA's limitations, effectively increases the representational capacity, and more closely approximates FFT behavior. Experiments on code generation and commonsense reasoning benchmarks show that GraLoRA consistently outperforms LoRA and other baselines, achieving up to +8.5% absolute gain in Pass@1 on HumanEval+. These improvements hold across model sizes and rank settings, making GraLoRA a scalable and robust solution for PEFT. Code, data, and scripts are available at https://github.com/SqueezeBits/GraLoRA.git

GraLoRA: Adattamento Granulare a Basso Rango per un Fine-Tuning Efficiente in Termini di Parametri

GraLoRA: Granular Low-Rank Adaptation for Parameter-Efficient Fine-Tuning

Abstract

Support