ChatPaper.aiChatPaper

LoLDU : Adaptation à faible rang via la décomposition inférieure-diagonale-supérieure pour un ajustement fin efficace des paramètres

LoLDU: Low-Rank Adaptation via Lower-Diag-Upper Decomposition for Parameter-Efficient Fine-Tuning

October 17, 2024
Auteurs: Yiming Shi, Jiwei Wei, Yujia Wu, Ran Ran, Chengwei Sun, Shiyuan He, Yang Yang
cs.AI

Résumé

La croissance rapide de l'échelle des modèles a nécessité des ressources computationnelles substantielles pour le peaufinage. Une approche existante telle que l'Adaptation à Faible Rang (LoRA) a cherché à résoudre le problème de la gestion des grands paramètres mis à jour dans le cadre d'un peaufinage complet. Cependant, LoRA utilise une initialisation aléatoire et l'optimisation de matrices de faible rang pour approximer les poids mis à jour, ce qui peut entraîner une convergence sous-optimale et un écart de précision par rapport au peaufinage complet. Pour résoudre ces problèmes, nous proposons LoLDU, une approche de Peaufinage Efficace des Paramètres (PEFT) qui réduit de manière significative le nombre de paramètres entraînables de 2600 fois par rapport aux méthodes PEFT classiques tout en maintenant des performances comparables. LoLDU exploite la Décomposition Inférieure-Diagonale-Supérieure (LDU) pour initialiser les matrices de faible rang pour une convergence plus rapide et une orthogonalité. Nous nous concentrons sur l'optimisation de la matrice diagonale pour les transformations d'échelle. À notre connaissance, LoLDU possède le moins de paramètres parmi toutes les approches PEFT. Nous avons mené des expériences approfondies sur 4 ensembles de données de suivi d'instructions, 6 ensembles de données de compréhension du langage naturel (NLU), 8 ensembles de données de classification d'images, et des ensembles de données de génération d'images avec plusieurs types de modèles (LLaMA2, RoBERTa, ViT, et Stable Diffusion), fournissant une analyse complète et détaillée. Notre code open-source est disponible sur https://github.com/SKDDJ/LoLDU.
English
The rapid growth of model scale has necessitated substantial computational resources for fine-tuning. Existing approach such as Low-Rank Adaptation (LoRA) has sought to address the problem of handling the large updated parameters in full fine-tuning. However, LoRA utilize random initialization and optimization of low-rank matrices to approximate updated weights, which can result in suboptimal convergence and an accuracy gap compared to full fine-tuning. To address these issues, we propose LoLDU, a Parameter-Efficient Fine-Tuning (PEFT) approach that significantly reduces trainable parameters by 2600 times compared to regular PEFT methods while maintaining comparable performance. LoLDU leverages Lower-Diag-Upper Decomposition (LDU) to initialize low-rank matrices for faster convergence and orthogonality. We focus on optimizing the diagonal matrix for scaling transformations. To the best of our knowledge, LoLDU has the fewest parameters among all PEFT approaches. We conducted extensive experiments across 4 instruction-following datasets, 6 natural language understanding (NLU) datasets, 8 image classification datasets, and image generation datasets with multiple model types (LLaMA2, RoBERTa, ViT, and Stable Diffusion), providing a comprehensive and detailed analysis. Our open-source code can be accessed at https://github.com/SKDDJ/LoLDU{https://github.com/SKDDJ/LoLDU}.

Summary

AI-Generated Summary

PDF72November 16, 2024