LoLDU: Adaptación de Bajo Rango a través de la Descomposición Inferior-Diagonal-Superior para Ajuste Fino Eficiente de Parámetros

Resumen

El rápido crecimiento de la escala de los modelos ha requerido recursos computacionales sustanciales para el ajuste fino. Enfoques existentes como la Adaptación de Bajo Rango (LoRA) han buscado abordar el problema de manejar los grandes parámetros actualizados en el ajuste fino completo. Sin embargo, LoRA utiliza inicialización aleatoria y optimización de matrices de bajo rango para aproximar los pesos actualizados, lo que puede resultar en una convergencia subóptima y una brecha de precisión en comparación con el ajuste fino completo. Para abordar estos problemas, proponemos LoLDU, un enfoque de Ajuste Fino Eficiente de Parámetros (PEFT) que reduce significativamente los parámetros entrenables en 2600 veces en comparación con los métodos de PEFT regulares mientras mantiene un rendimiento comparable. LoLDU aprovecha la Descomposición en Bajo-Diag-Superior (LDU) para inicializar matrices de bajo rango para una convergencia más rápida y ortogonalidad. Nos centramos en optimizar la matriz diagonal para transformaciones de escala. Hasta donde sabemos, LoLDU tiene la menor cantidad de parámetros entre todos los enfoques de PEFT. Realizamos experimentos extensos en 4 conjuntos de datos de seguimiento de instrucciones, 6 conjuntos de datos de comprensión del lenguaje natural (NLU), 8 conjuntos de datos de clasificación de imágenes y conjuntos de datos de generación de imágenes con múltiples tipos de modelos (LLaMA2, RoBERTa, ViT y Difusión Estable), proporcionando un análisis completo y detallado. Nuestro código de código abierto está disponible en https://github.com/SKDDJ/LoLDU{https://github.com/SKDDJ/LoLDU}.

English

The rapid growth of model scale has necessitated substantial computational resources for fine-tuning. Existing approach such as Low-Rank Adaptation (LoRA) has sought to address the problem of handling the large updated parameters in full fine-tuning. However, LoRA utilize random initialization and optimization of low-rank matrices to approximate updated weights, which can result in suboptimal convergence and an accuracy gap compared to full fine-tuning. To address these issues, we propose LoLDU, a Parameter-Efficient Fine-Tuning (PEFT) approach that significantly reduces trainable parameters by 2600 times compared to regular PEFT methods while maintaining comparable performance. LoLDU leverages Lower-Diag-Upper Decomposition (LDU) to initialize low-rank matrices for faster convergence and orthogonality. We focus on optimizing the diagonal matrix for scaling transformations. To the best of our knowledge, LoLDU has the fewest parameters among all PEFT approaches. We conducted extensive experiments across 4 instruction-following datasets, 6 natural language understanding (NLU) datasets, 8 image classification datasets, and image generation datasets with multiple model types (LLaMA2, RoBERTa, ViT, and Stable Diffusion), providing a comprehensive and detailed analysis. Our open-source code can be accessed at https://github.com/SKDDJ/LoLDU{https://github.com/SKDDJ/LoLDU}.

LoLDU: Adaptación de Bajo Rango a través de la Descomposición Inferior-Diagonal-Superior para Ajuste Fino Eficiente de Parámetros

LoLDU: Low-Rank Adaptation via Lower-Diag-Upper Decomposition for Parameter-Efficient Fine-Tuning

Resumen

Support