GraLoRA: Granulare Low-Rank-Adaption für parameter-effizientes Feintuning
GraLoRA: Granular Low-Rank Adaptation for Parameter-Efficient Fine-Tuning
May 26, 2025
Autoren: Yeonjoon Jung, Daehyun Ahn, Hyungjun Kim, Taesu Kim, Eunhyeok Park
cs.AI
Zusammenfassung
Low-Rank Adaptation (LoRA) ist eine beliebte Methode für parameter-effizientes Feintuning (PEFT) von generativen Modellen, die aufgrund ihrer Einfachheit und Effektivität geschätzt wird. Trotz jüngster Verbesserungen leidet LoRA weiterhin unter einer grundlegenden Einschränkung: Überanpassung, wenn der Engpass erweitert wird. Es erzielt die besten Ergebnisse bei Rängen von 32-64, doch seine Genauigkeit stagniert oder sinkt bei höheren Rängen und bleibt immer noch hinter der Leistung des vollständigen Feintunings (FFT) zurück. Wir identifizieren die Ursache als den strukturellen Engpass von LoRA, der Gradientenverschränkung in den nicht verwandten Eingangskanälen einführt und die Gradientenausbreitung verzerrt. Um dies zu beheben, führen wir eine neuartige Struktur ein, Granular Low-Rank Adaptation (GraLoRA), die Gewichtsmatrizen in Unterblöcke aufteilt, von denen jeder seinen eigenen Low-Rank-Adapter hat. Mit vernachlässigbarem Rechen- oder Speicheraufwand überwindet GraLoRA die Einschränkungen von LoRA, erhöht effektiv die Repräsentationskapazität und nähert sich dem Verhalten von FFT stärker an. Experimente auf Benchmarks für Code-Generierung und Common-Sense-Reasoning zeigen, dass GraLoRA durchgehend LoRA und andere Baselines übertrifft und einen absoluten Gewinn von bis zu +8,5 % in Pass@1 auf HumanEval+ erzielt. Diese Verbesserungen gelten über Modellgrößen und Rang-Einstellungen hinweg, was GraLoRA zu einer skalierbaren und robusten Lösung für PEFT macht. Code, Daten und Skripte sind verfügbar unter https://github.com/SqueezeBits/GraLoRA.git.
English
Low-Rank Adaptation (LoRA) is a popular method for parameter-efficient
fine-tuning (PEFT) of generative models, valued for its simplicity and
effectiveness. Despite recent enhancements, LoRA still suffers from a
fundamental limitation: overfitting when the bottleneck is widened. It performs
best at ranks 32-64, yet its accuracy stagnates or declines at higher ranks,
still falling short of full fine-tuning (FFT) performance. We identify the root
cause as LoRA's structural bottleneck, which introduces gradient entanglement
to the unrelated input channels and distorts gradient propagation. To address
this, we introduce a novel structure, Granular Low-Rank Adaptation (GraLoRA)
that partitions weight matrices into sub-blocks, each with its own low-rank
adapter. With negligible computational or storage cost, GraLoRA overcomes
LoRA's limitations, effectively increases the representational capacity, and
more closely approximates FFT behavior. Experiments on code generation and
commonsense reasoning benchmarks show that GraLoRA consistently outperforms
LoRA and other baselines, achieving up to +8.5% absolute gain in Pass@1 on
HumanEval+. These improvements hold across model sizes and rank settings,
making GraLoRA a scalable and robust solution for PEFT. Code, data, and scripts
are available at https://github.com/SqueezeBits/GraLoRA.gitSummary
AI-Generated Summary