Hagamos que LoRA vuelva a ser genial: Potenciando LoRA con valores singulares adaptativos y alineación de optimización mediante mezcla de expertos
Make LoRA Great Again: Boosting LoRA with Adaptive Singular Values and Mixture-of-Experts Optimization Alignment
February 24, 2025
Autores: Chenghao Fan, Zhenyi Lu, Sichen Liu, Xiaoye Qu, Wei Wei, Chengfeng Gu, Yu Cheng
cs.AI
Resumen
Si bien la Adaptación de Bajo Rango (LoRA) permite un ajuste fino eficiente en parámetros para Modelos de Lenguaje a Gran Escala (LLMs), su rendimiento a menudo no alcanza el del Ajuste Fino Completo (Full FT). Los métodos actuales optimizan LoRA inicializando con subconjuntos estáticos de descomposición en valores singulares (SVD), lo que lleva a un aprovechamiento subóptimo del conocimiento preentrenado. Otra vía para mejorar LoRA es incorporar una arquitectura de Mezcla de Expertos (MoE). Sin embargo, la desalineación de pesos y las dinámicas complejas de los gradientes hacen que sea un desafío adoptar SVD antes de la arquitectura LoRA MoE. Para mitigar estos problemas, proponemos Great LoRA Mixture-of-Expert (GOAT), un marco que (1) integra adaptativamente conocimientos previos relevantes utilizando un MoE estructurado con SVD, y (2) alinea la optimización con un MoE de ajuste fino completo mediante la derivación de un factor de escalado teórico. Demostramos que un escalado adecuado, sin modificar la arquitectura o los algoritmos de entrenamiento, mejora la eficiencia y el rendimiento de LoRA MoE. Los experimentos en 25 conjuntos de datos, que incluyen comprensión del lenguaje natural, razonamiento de sentido común, clasificación de imágenes y generación de lenguaje natural, demuestran que GOAT alcanza un rendimiento de vanguardia, cerrando la brecha con Full FT.
English
While Low-Rank Adaptation (LoRA) enables parameter-efficient fine-tuning for
Large Language Models (LLMs), its performance often falls short of Full
Fine-Tuning (Full FT). Current methods optimize LoRA by initializing with
static singular value decomposition (SVD) subsets, leading to suboptimal
leveraging of pre-trained knowledge. Another path for improving LoRA is
incorporating a Mixture-of-Experts (MoE) architecture. However, weight
misalignment and complex gradient dynamics make it challenging to adopt SVD
prior to the LoRA MoE architecture. To mitigate these issues, we propose
Great LoRA Mixture-of-Expert
(GOAT), a framework that (1) adaptively integrates relevant priors using an
SVD-structured MoE, and (2) aligns optimization with full fine-tuned MoE by
deriving a theoretical scaling factor. We demonstrate that proper scaling,
without modifying the architecture or training algorithms, boosts LoRA MoE's
efficiency and performance. Experiments across 25 datasets, including natural
language understanding, commonsense reasoning, image classification, and
natural language generation, demonstrate GOAT's state-of-the-art performance,
closing the gap with Full FT.Summary
AI-Generated Summary