LoLDU: Адаптация низкого ранга с помощью разложения на нижнюю диагональ и верхнюю диагональ для эффективного донастройки параметров.
LoLDU: Low-Rank Adaptation via Lower-Diag-Upper Decomposition for Parameter-Efficient Fine-Tuning
October 17, 2024
Авторы: Yiming Shi, Jiwei Wei, Yujia Wu, Ran Ran, Chengwei Sun, Shiyuan He, Yang Yang
cs.AI
Аннотация
Быстрый рост масштаба моделей требует значительных вычислительных ресурсов для тонкой настройки. Существующий подход, такой как Адаптация с Низким Рангом (LoRA), стремится решить проблему обработки большого количества обновленных параметров при полной тонкой настройке. Однако LoRA использует случайную инициализацию и оптимизацию матриц низкого ранга для приближения обновленных весов, что может привести к неоптимальной сходимости и разрыву в точности по сравнению с полной тонкой настройкой. Для решения этих проблем мы предлагаем LoLDU, подход к Тонкой Настройке с Эффективными Параметрами (PEFT), который значительно уменьшает количество обучаемых параметров в 2600 раз по сравнению с обычными методами PEFT, сохраняя при этом сопоставимую производительность. LoLDU использует Декомпозицию на Нижнюю-Диагональную-Верхнюю (LDU) для инициализации матриц низкого ранга для более быстрой сходимости и ортогональности. Мы сосредотачиваемся на оптимизации диагональной матрицы для масштабирующих преобразований. На наш взгляд, LoLDU имеет наименьшее количество параметров среди всех подходов PEFT. Мы провели обширные эксперименты на 4 наборах данных по следованию инструкциям, 6 наборах данных по пониманию естественного языка (NLU), 8 наборах данных по классификации изображений и наборах данных по генерации изображений с несколькими типами моделей (LLaMA2, RoBERTa, ViT и Stable Diffusion), предоставив всесторонний и детальный анализ. Наш исходный код с открытым исходным кодом доступен по адресу https://github.com/SKDDJ/LoLDU.
English
The rapid growth of model scale has necessitated substantial computational
resources for fine-tuning. Existing approach such as Low-Rank Adaptation (LoRA)
has sought to address the problem of handling the large updated parameters in
full fine-tuning. However, LoRA utilize random initialization and optimization
of low-rank matrices to approximate updated weights, which can result in
suboptimal convergence and an accuracy gap compared to full fine-tuning. To
address these issues, we propose LoLDU, a Parameter-Efficient Fine-Tuning
(PEFT) approach that significantly reduces trainable parameters by 2600 times
compared to regular PEFT methods while maintaining comparable performance.
LoLDU leverages Lower-Diag-Upper Decomposition (LDU) to initialize low-rank
matrices for faster convergence and orthogonality. We focus on optimizing the
diagonal matrix for scaling transformations. To the best of our knowledge,
LoLDU has the fewest parameters among all PEFT approaches. We conducted
extensive experiments across 4 instruction-following datasets, 6 natural
language understanding (NLU) datasets, 8 image classification datasets, and
image generation datasets with multiple model types (LLaMA2, RoBERTa, ViT, and
Stable Diffusion), providing a comprehensive and detailed analysis. Our
open-source code can be accessed at
https://github.com/SKDDJ/LoLDU{https://github.com/SKDDJ/LoLDU}.Summary
AI-Generated Summary