ChatPaper.aiChatPaper

GraLoRA: Granulare Low-Rank-Adaption für parameter-effizientes Feintuning

GraLoRA: Granular Low-Rank Adaptation for Parameter-Efficient Fine-Tuning

May 26, 2025
Autoren: Yeonjoon Jung, Daehyun Ahn, Hyungjun Kim, Taesu Kim, Eunhyeok Park
cs.AI

Zusammenfassung

Low-Rank Adaptation (LoRA) ist eine beliebte Methode für parameter-effizientes Feintuning (PEFT) von generativen Modellen, die aufgrund ihrer Einfachheit und Effektivität geschätzt wird. Trotz jüngster Verbesserungen leidet LoRA weiterhin unter einer grundlegenden Einschränkung: Überanpassung, wenn der Engpass erweitert wird. Es erzielt die besten Ergebnisse bei Rängen von 32-64, doch seine Genauigkeit stagniert oder sinkt bei höheren Rängen und bleibt immer noch hinter der Leistung des vollständigen Feintunings (FFT) zurück. Wir identifizieren die Ursache als den strukturellen Engpass von LoRA, der Gradientenverschränkung in den nicht verwandten Eingangskanälen einführt und die Gradientenausbreitung verzerrt. Um dies zu beheben, führen wir eine neuartige Struktur ein, Granular Low-Rank Adaptation (GraLoRA), die Gewichtsmatrizen in Unterblöcke aufteilt, von denen jeder seinen eigenen Low-Rank-Adapter hat. Mit vernachlässigbarem Rechen- oder Speicheraufwand überwindet GraLoRA die Einschränkungen von LoRA, erhöht effektiv die Repräsentationskapazität und nähert sich dem Verhalten von FFT stärker an. Experimente auf Benchmarks für Code-Generierung und Common-Sense-Reasoning zeigen, dass GraLoRA durchgehend LoRA und andere Baselines übertrifft und einen absoluten Gewinn von bis zu +8,5 % in Pass@1 auf HumanEval+ erzielt. Diese Verbesserungen gelten über Modellgrößen und Rang-Einstellungen hinweg, was GraLoRA zu einer skalierbaren und robusten Lösung für PEFT macht. Code, Daten und Skripte sind verfügbar unter https://github.com/SqueezeBits/GraLoRA.git.
English
Low-Rank Adaptation (LoRA) is a popular method for parameter-efficient fine-tuning (PEFT) of generative models, valued for its simplicity and effectiveness. Despite recent enhancements, LoRA still suffers from a fundamental limitation: overfitting when the bottleneck is widened. It performs best at ranks 32-64, yet its accuracy stagnates or declines at higher ranks, still falling short of full fine-tuning (FFT) performance. We identify the root cause as LoRA's structural bottleneck, which introduces gradient entanglement to the unrelated input channels and distorts gradient propagation. To address this, we introduce a novel structure, Granular Low-Rank Adaptation (GraLoRA) that partitions weight matrices into sub-blocks, each with its own low-rank adapter. With negligible computational or storage cost, GraLoRA overcomes LoRA's limitations, effectively increases the representational capacity, and more closely approximates FFT behavior. Experiments on code generation and commonsense reasoning benchmarks show that GraLoRA consistently outperforms LoRA and other baselines, achieving up to +8.5% absolute gain in Pass@1 on HumanEval+. These improvements hold across model sizes and rank settings, making GraLoRA a scalable and robust solution for PEFT. Code, data, and scripts are available at https://github.com/SqueezeBits/GraLoRA.git

Summary

AI-Generated Summary

PDF362May 28, 2025