Rendiamo di nuovo grande LoRA: Potenziamento di LoRA con valori singolari adattivi e allineamento ottimizzato tramite miscela di esperti
Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment
February 24, 2025
Autori: Chenghao Fan, Zhenyi Lu, Sichen Liu, Xiaoye Qu, Wei Wei, Chengfeng Gu, Yu Cheng
cs.AI
Abstract
Mentre l'Adattamento a Basso Rango (LoRA) consente una messa a punto efficiente dei parametri per i Modelli Linguistici di Grande Dimensione (LLM), le sue prestazioni spesso non raggiungono quelle della Messa a Punto Completa (Full FT). I metodi attuali ottimizzano LoRA inizializzando con sottoinsiemi statici di decomposizione a valori singolari (SVD), portando a uno sfruttamento subottimale della conoscenza pre-addestrata. Un'altra strada per migliorare LoRA è l'incorporazione di un'architettura a Miscela di Esperti (MoE). Tuttavia, il disallineamento dei pesi e le dinamiche complesse del gradiente rendono difficile adottare SVD prima dell'architettura LoRA MoE. Per mitigare questi problemi, proponiamo Great LoRA Mixture-of-Expert (GOAT), un framework che (1) integra in modo adattivo i prior rilevanti utilizzando un MoE strutturato con SVD, e (2) allinea l'ottimizzazione con il MoE messo a punto completo derivando un fattore di scala teorico. Dimostriamo che un'adeguata scalatura, senza modificare l'architettura o gli algoritmi di addestramento, migliora l'efficienza e le prestazioni di LoRA MoE. Esperimenti su 25 dataset, compresi la comprensione del linguaggio naturale, il ragionamento di senso comune, la classificazione delle immagini e la generazione del linguaggio naturale, dimostrano che GOAT raggiunge prestazioni all'avanguardia, riducendo il divario con Full FT.
English
While Low-Rank Adaptation (LoRA) enables parameter-efficient fine-tuning for
Large Language Models (LLMs), its performance often falls short of Full
Fine-Tuning (Full FT). Current methods optimize LoRA by initializing with
static singular value decomposition (SVD) subsets, leading to suboptimal
leveraging of pre-trained knowledge. Another path for improving LoRA is
incorporating a Mixture-of-Experts (MoE) architecture. However, weight
misalignment and complex gradient dynamics make it challenging to adopt SVD
prior to the LoRA MoE architecture. To mitigate these issues, we propose
Great LoRA Mixture-of-Expert
(GOAT), a framework that (1) adaptively integrates relevant priors using an
SVD-structured MoE, and (2) aligns optimization with full fine-tuned MoE by
deriving a theoretical scaling factor. We demonstrate that proper scaling,
without modifying the architecture or training algorithms, boosts LoRA MoE's
efficiency and performance. Experiments across 25 datasets, including natural
language understanding, commonsense reasoning, image classification, and
natural language generation, demonstrate GOAT's state-of-the-art performance,
closing the gap with Full FT.Summary
AI-Generated Summary