LoLDU: Adattamento a basso rango tramite decomposizione inferiore-diagonale-superiore per un fine-tuning efficiente dei parametri
LoLDU: Low-Rank Adaptation via Lower-Diag-Upper Decomposition for Parameter-Efficient Fine-Tuning
October 17, 2024
Autori: Yiming Shi, Jiwei Wei, Yujia Wu, Ran Ran, Chengwei Sun, Shiyuan He, Yang Yang
cs.AI
Abstract
L'ampia crescita della scala del modello ha reso necessarie consistenti risorse computazionali per il raffinamento. Approcci esistenti come l'Adattamento a Bassa Gradazione (LoRA) hanno cercato di affrontare il problema della gestione dei numerosi parametri aggiornati nel pieno raffinamento. Tuttavia, LoRA utilizza inizializzazione casuale e ottimizzazione di matrici a bassa gradazione per approssimare i pesi aggiornati, il che può portare a una convergenza subottimale e a uno scostamento di accuratezza rispetto al pieno raffinamento. Per affrontare queste problematiche, proponiamo LoLDU, un approccio di Raffinamento Fine a Parametri-Efficienti (PEFT) che riduce significativamente i parametri addestrabili di 2600 volte rispetto ai metodi PEFT regolari mantenendo prestazioni comparabili. LoLDU sfrutta la Decomposizione Inferiore-Diagonale-Superiore (LDU) per inizializzare matrici a bassa gradazione per una convergenza più rapida e ortogonalità. Ci concentriamo sull'ottimizzazione della matrice diagonale per le trasformazioni di scala. A quanto ci risulta, LoLDU ha il minor numero di parametri tra tutti gli approcci PEFT. Abbiamo condotto ampi esperimenti su 4 set di dati di istruzioni, 6 set di dati di comprensione del linguaggio naturale (NLU), 8 set di dati di classificazione delle immagini e set di dati di generazione di immagini con vari tipi di modelli (LLaMA2, RoBERTa, ViT e Stable Diffusion), fornendo un'analisi completa e dettagliata. Il nostro codice open-source è disponibile su https://github.com/SKDDJ/LoLDU.
English
The rapid growth of model scale has necessitated substantial computational
resources for fine-tuning. Existing approach such as Low-Rank Adaptation (LoRA)
has sought to address the problem of handling the large updated parameters in
full fine-tuning. However, LoRA utilize random initialization and optimization
of low-rank matrices to approximate updated weights, which can result in
suboptimal convergence and an accuracy gap compared to full fine-tuning. To
address these issues, we propose LoLDU, a Parameter-Efficient Fine-Tuning
(PEFT) approach that significantly reduces trainable parameters by 2600 times
compared to regular PEFT methods while maintaining comparable performance.
LoLDU leverages Lower-Diag-Upper Decomposition (LDU) to initialize low-rank
matrices for faster convergence and orthogonality. We focus on optimizing the
diagonal matrix for scaling transformations. To the best of our knowledge,
LoLDU has the fewest parameters among all PEFT approaches. We conducted
extensive experiments across 4 instruction-following datasets, 6 natural
language understanding (NLU) datasets, 8 image classification datasets, and
image generation datasets with multiple model types (LLaMA2, RoBERTa, ViT, and
Stable Diffusion), providing a comprehensive and detailed analysis. Our
open-source code can be accessed at
https://github.com/SKDDJ/LoLDU{https://github.com/SKDDJ/LoLDU}.Summary
AI-Generated Summary