ChatPaper.aiChatPaper

LoLDU: パラメータ効率のファインチューニングのための下三角-対角-上三角分解を用いた低ランク適応

LoLDU: Low-Rank Adaptation via Lower-Diag-Upper Decomposition for Parameter-Efficient Fine-Tuning

October 17, 2024
著者: Yiming Shi, Jiwei Wei, Yujia Wu, Ran Ran, Chengwei Sun, Shiyuan He, Yang Yang
cs.AI

要旨

モデルの規模が急速に拡大しているため、微調整には大規模な計算リソースが必要とされています。Low-Rank Adaptation(LoRA)などの既存手法は、完全な微調整における大規模な更新されたパラメータの取り扱いの問題に対処しようとしてきました。しかし、LoRAは更新された重みを近似するためにランダムな初期化と低ランク行列の最適化を利用しており、これは完全な微調整と比較して収束が不十分であり、精度の差が生じる可能性があります。これらの問題に対処するために、我々はLoLDUを提案します。これは、パラメータ効率の良い微調整(PEFT)手法であり、通常のPEFT手法と比較してトレーニング可能なパラメータを2600倍削減し、同等の性能を維持します。LoLDUは、低ランク行列を初期化するためにLower-Diag-Upper Decomposition(LDU)を活用し、より速い収束と直交性を実現します。スケーリング変換のために対角行列を最適化することに焦点を当てています。我々の知る限り、LoLDUはすべてのPEFT手法の中で最も少ないパラメータを持っています。LLaMA2、RoBERTa、ViT、Stable Diffusionなど複数のモデルタイプを使用した、4つの命令従属データセット、6つの自然言語理解(NLU)データセット、8つの画像分類データセット、および画像生成データセットにわたる包括的で詳細な分析を提供するために、幅広い実験を行いました。当社のオープンソースコードは、https://github.com/SKDDJ/LoLDU{https://github.com/SKDDJ/LoLDU} でアクセスできます。
English
The rapid growth of model scale has necessitated substantial computational resources for fine-tuning. Existing approach such as Low-Rank Adaptation (LoRA) has sought to address the problem of handling the large updated parameters in full fine-tuning. However, LoRA utilize random initialization and optimization of low-rank matrices to approximate updated weights, which can result in suboptimal convergence and an accuracy gap compared to full fine-tuning. To address these issues, we propose LoLDU, a Parameter-Efficient Fine-Tuning (PEFT) approach that significantly reduces trainable parameters by 2600 times compared to regular PEFT methods while maintaining comparable performance. LoLDU leverages Lower-Diag-Upper Decomposition (LDU) to initialize low-rank matrices for faster convergence and orthogonality. We focus on optimizing the diagonal matrix for scaling transformations. To the best of our knowledge, LoLDU has the fewest parameters among all PEFT approaches. We conducted extensive experiments across 4 instruction-following datasets, 6 natural language understanding (NLU) datasets, 8 image classification datasets, and image generation datasets with multiple model types (LLaMA2, RoBERTa, ViT, and Stable Diffusion), providing a comprehensive and detailed analysis. Our open-source code can be accessed at https://github.com/SKDDJ/LoLDU{https://github.com/SKDDJ/LoLDU}.

Summary

AI-Generated Summary

PDF72November 16, 2024