Machen wir LoRA wieder großartig: Steigerung von LoRA mit adaptiven Singulärwerten und Optimierung der Mischung von Experten-Ausrichtung.
Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment
February 24, 2025
Autoren: Chenghao Fan, Zhenyi Lu, Sichen Liu, Xiaoye Qu, Wei Wei, Chengfeng Gu, Yu Cheng
cs.AI
Zusammenfassung
Während die Low-Rank-Anpassung (LoRA) eine parameter-effiziente Feinabstimmung für große Sprachmodelle (LLMs) ermöglicht, bleibt ihre Leistung oft hinter der vollständigen Feinabstimmung (Full Fine-Tuning) zurück. Aktuelle Methoden optimieren LoRA, indem sie mit statischen Untermengen der Singulärwertzerlegung (SVD) initialisieren, was zu einer suboptimalen Nutzung des vorab trainierten Wissens führt. Ein anderer Ansatz zur Verbesserung von LoRA besteht darin, eine Mischung-von-Experten (MoE)-Architektur zu integrieren. Gewichtsfehljustierungen und komplexe Gradientendynamiken machen es jedoch herausfordernd, die SVD vor der LoRA MoE-Architektur zu übernehmen. Um diese Probleme zu mildern, schlagen wir Great LoRA Mixture-of-Expert (GOAT) vor, ein Framework, das (1) relevante Priors adaptiv integriert, indem es eine SVD-strukturierte MoE verwendet, und (2) die Optimierung mit der vollständig feinabgestimmten MoE durch Ableitung eines theoretischen Skalierungsfaktors ausrichtet. Wir zeigen, dass eine angemessene Skalierung, ohne die Architektur oder Trainingsalgorithmen zu ändern, die Effizienz und Leistungsfähigkeit von LoRA MoE steigert. Experimente über 25 Datensätze, einschließlich des Verständnisses natürlicher Sprache, des gesunden Menschenverstands, der Bildklassifizierung und der Generierung natürlicher Sprache, zeigen die herausragende Leistungsfähigkeit von GOAT und schließen die Lücke zur vollständigen Feinabstimmung.
English
While Low-Rank Adaptation (LoRA) enables parameter-efficient fine-tuning for
Large Language Models (LLMs), its performance often falls short of Full
Fine-Tuning (Full FT). Current methods optimize LoRA by initializing with
static singular value decomposition (SVD) subsets, leading to suboptimal
leveraging of pre-trained knowledge. Another path for improving LoRA is
incorporating a Mixture-of-Experts (MoE) architecture. However, weight
misalignment and complex gradient dynamics make it challenging to adopt SVD
prior to the LoRA MoE architecture. To mitigate these issues, we propose
Great LoRA Mixture-of-Expert
(GOAT), a framework that (1) adaptively integrates relevant priors using an
SVD-structured MoE, and (2) aligns optimization with full fine-tuned MoE by
deriving a theoretical scaling factor. We demonstrate that proper scaling,
without modifying the architecture or training algorithms, boosts LoRA MoE's
efficiency and performance. Experiments across 25 datasets, including natural
language understanding, commonsense reasoning, image classification, and
natural language generation, demonstrate GOAT's state-of-the-art performance,
closing the gap with Full FT.Summary
AI-Generated Summary