ChatPaper.aiChatPaper

GraLoRA: Adaptação Granular de Baixa Ordem para Ajuste Fino Eficiente em Parâmetros

GraLoRA: Granular Low-Rank Adaptation for Parameter-Efficient Fine-Tuning

May 26, 2025
Autores: Yeonjoon Jung, Daehyun Ahn, Hyungjun Kim, Taesu Kim, Eunhyeok Park
cs.AI

Resumo

A Adaptação de Baixa Classificação (LoRA) é um método popular para ajuste fino eficiente em parâmetros (PEFT) de modelos generativos, valorizado por sua simplicidade e eficácia. Apesar de aprimoramentos recentes, a LoRA ainda sofre de uma limitação fundamental: overfitting quando o gargalo é ampliado. Ela apresenta o melhor desempenho em classificações de 32-64, mas sua precisão estagna ou diminui em classificações mais altas, ainda ficando aquém do desempenho do ajuste fino completo (FFT). Identificamos a causa raiz como o gargalo estrutural da LoRA, que introduz emaranhamento de gradiente aos canais de entrada não relacionados e distorce a propagação do gradiente. Para resolver isso, introduzimos uma nova estrutura, a Adaptação de Baixa Classificação Granular (GraLoRA), que particiona matrizes de peso em sub-blocos, cada um com seu próprio adaptador de baixa classificação. Com custo computacional ou de armazenamento insignificante, a GraLoRA supera as limitações da LoRA, aumenta efetivamente a capacidade de representação e se aproxima mais do comportamento do FFT. Experimentos em benchmarks de geração de código e raciocínio de senso comum mostram que a GraLoRA consistentemente supera a LoRA e outras baselines, alcançando um ganho absoluto de até +8,5% em Pass@1 no HumanEval+. Essas melhorias se mantêm em diferentes tamanhos de modelo e configurações de classificação, tornando a GraLoRA uma solução escalável e robusta para PEFT. Código, dados e scripts estão disponíveis em https://github.com/SqueezeBits/GraLoRA.git.
English
Low-Rank Adaptation (LoRA) is a popular method for parameter-efficient fine-tuning (PEFT) of generative models, valued for its simplicity and effectiveness. Despite recent enhancements, LoRA still suffers from a fundamental limitation: overfitting when the bottleneck is widened. It performs best at ranks 32-64, yet its accuracy stagnates or declines at higher ranks, still falling short of full fine-tuning (FFT) performance. We identify the root cause as LoRA's structural bottleneck, which introduces gradient entanglement to the unrelated input channels and distorts gradient propagation. To address this, we introduce a novel structure, Granular Low-Rank Adaptation (GraLoRA) that partitions weight matrices into sub-blocks, each with its own low-rank adapter. With negligible computational or storage cost, GraLoRA overcomes LoRA's limitations, effectively increases the representational capacity, and more closely approximates FFT behavior. Experiments on code generation and commonsense reasoning benchmarks show that GraLoRA consistently outperforms LoRA and other baselines, achieving up to +8.5% absolute gain in Pass@1 on HumanEval+. These improvements hold across model sizes and rank settings, making GraLoRA a scalable and robust solution for PEFT. Code, data, and scripts are available at https://github.com/SqueezeBits/GraLoRA.git
PDF362December 4, 2025