LoLDU: Adaptação de Baixa Ordem via Decomposição Lower-Diag-Upper para Ajuste Fino Eficiente de Parâmetros
LoLDU: Low-Rank Adaptation via Lower-Diag-Upper Decomposition for Parameter-Efficient Fine-Tuning
October 17, 2024
Autores: Yiming Shi, Jiwei Wei, Yujia Wu, Ran Ran, Chengwei Sun, Shiyuan He, Yang Yang
cs.AI
Resumo
O rápido crescimento da escala do modelo tem exigido recursos computacionais substanciais para o ajuste fino. Abordagens existentes, como a Adaptação de Baixo Rank (LoRA), têm buscado resolver o problema de lidar com os grandes parâmetros atualizados no ajuste fino completo. No entanto, o LoRA utiliza inicialização aleatória e otimização de matrizes de baixo rank para aproximar os pesos atualizados, o que pode resultar em convergência subótima e uma lacuna de precisão em comparação com o ajuste fino completo. Para lidar com essas questões, propomos o LoLDU, uma abordagem de Ajuste Fino Eficiente de Parâmetros (PEFT) que reduz significativamente os parâmetros treináveis em 2600 vezes em comparação com métodos de PEFT regulares, mantendo um desempenho comparável. O LoLDU utiliza a Decomposição Lower-Diag-Upper (LDU) para inicializar matrizes de baixo rank para uma convergência mais rápida e ortogonalidade. Focamos na otimização da matriz diagonal para transformações de escala. Até onde sabemos, o LoLDU possui o menor número de parâmetros entre todas as abordagens de PEFT. Realizamos experimentos extensivos em 4 conjuntos de dados de seguimento de instruções, 6 conjuntos de dados de compreensão de linguagem natural (NLU), 8 conjuntos de dados de classificação de imagens e conjuntos de dados de geração de imagens com vários tipos de modelos (LLaMA2, RoBERTa, ViT e Stable Diffusion), fornecendo uma análise abrangente e detalhada. Nosso código aberto pode ser acessado em https://github.com/SKDDJ/LoLDU{https://github.com/SKDDJ/LoLDU}.
English
The rapid growth of model scale has necessitated substantial computational
resources for fine-tuning. Existing approach such as Low-Rank Adaptation (LoRA)
has sought to address the problem of handling the large updated parameters in
full fine-tuning. However, LoRA utilize random initialization and optimization
of low-rank matrices to approximate updated weights, which can result in
suboptimal convergence and an accuracy gap compared to full fine-tuning. To
address these issues, we propose LoLDU, a Parameter-Efficient Fine-Tuning
(PEFT) approach that significantly reduces trainable parameters by 2600 times
compared to regular PEFT methods while maintaining comparable performance.
LoLDU leverages Lower-Diag-Upper Decomposition (LDU) to initialize low-rank
matrices for faster convergence and orthogonality. We focus on optimizing the
diagonal matrix for scaling transformations. To the best of our knowledge,
LoLDU has the fewest parameters among all PEFT approaches. We conducted
extensive experiments across 4 instruction-following datasets, 6 natural
language understanding (NLU) datasets, 8 image classification datasets, and
image generation datasets with multiple model types (LLaMA2, RoBERTa, ViT, and
Stable Diffusion), providing a comprehensive and detailed analysis. Our
open-source code can be accessed at
https://github.com/SKDDJ/LoLDU{https://github.com/SKDDJ/LoLDU}.Summary
AI-Generated Summary