Rendiamo di nuovo grande LoRA: Potenziamento di LoRA con valori singolari adattivi e allineamento ottimizzato tramite miscela di esperti

Abstract

Mentre l'Adattamento a Basso Rango (LoRA) consente una messa a punto efficiente dei parametri per i Modelli Linguistici di Grande Dimensione (LLM), le sue prestazioni spesso non raggiungono quelle della Messa a Punto Completa (Full FT). I metodi attuali ottimizzano LoRA inizializzando con sottoinsiemi statici di decomposizione a valori singolari (SVD), portando a uno sfruttamento subottimale della conoscenza pre-addestrata. Un'altra strada per migliorare LoRA è l'incorporazione di un'architettura a Miscela di Esperti (MoE). Tuttavia, il disallineamento dei pesi e le dinamiche complesse del gradiente rendono difficile adottare SVD prima dell'architettura LoRA MoE. Per mitigare questi problemi, proponiamo Great LoRA Mixture-of-Expert (GOAT), un framework che (1) integra in modo adattivo i prior rilevanti utilizzando un MoE strutturato con SVD, e (2) allinea l'ottimizzazione con il MoE messo a punto completo derivando un fattore di scala teorico. Dimostriamo che un'adeguata scalatura, senza modificare l'architettura o gli algoritmi di addestramento, migliora l'efficienza e le prestazioni di LoRA MoE. Esperimenti su 25 dataset, compresi la comprensione del linguaggio naturale, il ragionamento di senso comune, la classificazione delle immagini e la generazione del linguaggio naturale, dimostrano che GOAT raggiunge prestazioni all'avanguardia, riducendo il divario con Full FT.

English

While Low-Rank Adaptation (LoRA) enables parameter-efficient fine-tuning for Large Language Models (LLMs), its performance often falls short of Full Fine-Tuning (Full FT). Current methods optimize LoRA by initializing with static singular value decomposition (SVD) subsets, leading to suboptimal leveraging of pre-trained knowledge. Another path for improving LoRA is incorporating a Mixture-of-Experts (MoE) architecture. However, weight misalignment and complex gradient dynamics make it challenging to adopt SVD prior to the LoRA MoE architecture. To mitigate these issues, we propose Great LoRA Mixture-of-Expert (GOAT), a framework that (1) adaptively integrates relevant priors using an SVD-structured MoE, and (2) aligns optimization with full fine-tuned MoE by deriving a theoretical scaling factor. We demonstrate that proper scaling, without modifying the architecture or training algorithms, boosts LoRA MoE's efficiency and performance. Experiments across 25 datasets, including natural language understanding, commonsense reasoning, image classification, and natural language generation, demonstrate GOAT's state-of-the-art performance, closing the gap with Full FT.

Rendiamo di nuovo grande LoRA: Potenziamento di LoRA con valori singolari adattivi e allineamento ottimizzato tramite miscela di esperti

Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment

Abstract

Support