ChatPaper.aiChatPaper

Rendre LoRA à nouveau performant : Amélioration de LoRA grâce à des valeurs singulières adaptatives et à un alignement d'optimisation par mélange d'experts

Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment

February 24, 2025
Auteurs: Chenghao Fan, Zhenyi Lu, Sichen Liu, Xiaoye Qu, Wei Wei, Chengfeng Gu, Yu Cheng
cs.AI

Résumé

Bien que l'adaptation à faible rang (LoRA) permette un réglage fin efficace en termes de paramètres pour les grands modèles de langage (LLMs), ses performances restent souvent inférieures à celles du réglage fin complet (Full FT). Les méthodes actuelles optimisent LoRA en initialisant avec des sous-ensembles statiques de décomposition en valeurs singulières (SVD), ce qui conduit à une exploitation sous-optimale des connaissances pré-entraînées. Une autre voie pour améliorer LoRA consiste à intégrer une architecture de mélange d'experts (MoE). Cependant, le désalignement des poids et la dynamique complexe des gradients rendent difficile l'adoption de la SVD avant l'architecture LoRA MoE. Pour atténuer ces problèmes, nous proposons Great LoRA Mixture-of-Expert (GOAT), un cadre qui (1) intègre de manière adaptative des connaissances préalables pertinentes en utilisant un MoE structuré par SVD, et (2) aligne l'optimisation avec un MoE entièrement réglé en dérivant un facteur d'échelle théorique. Nous démontrons qu'une mise à l'échelle appropriée, sans modifier l'architecture ou les algorithmes d'entraînement, améliore l'efficacité et les performances de LoRA MoE. Des expériences menées sur 25 ensembles de données, comprenant la compréhension du langage naturel, le raisonnement de bon sens, la classification d'images et la génération de langage naturel, montrent que GOAT atteint des performances de pointe, réduisant ainsi l'écart avec Full FT.
English
While Low-Rank Adaptation (LoRA) enables parameter-efficient fine-tuning for Large Language Models (LLMs), its performance often falls short of Full Fine-Tuning (Full FT). Current methods optimize LoRA by initializing with static singular value decomposition (SVD) subsets, leading to suboptimal leveraging of pre-trained knowledge. Another path for improving LoRA is incorporating a Mixture-of-Experts (MoE) architecture. However, weight misalignment and complex gradient dynamics make it challenging to adopt SVD prior to the LoRA MoE architecture. To mitigate these issues, we propose Great LoRA Mixture-of-Expert (GOAT), a framework that (1) adaptively integrates relevant priors using an SVD-structured MoE, and (2) aligns optimization with full fine-tuned MoE by deriving a theoretical scaling factor. We demonstrate that proper scaling, without modifying the architecture or training algorithms, boosts LoRA MoE's efficiency and performance. Experiments across 25 datasets, including natural language understanding, commonsense reasoning, image classification, and natural language generation, demonstrate GOAT's state-of-the-art performance, closing the gap with Full FT.

Summary

AI-Generated Summary

PDF294February 25, 2025