SaRA: Высокоэффективная модель диффузии Fine-tuning с постепенной разреженной адаптацией низкого ранга
SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation
September 10, 2024
Авторы: Teng Hu, Jiangning Zhang, Ran Yi, Hongrui Huang, Yabiao Wang, Lizhuang Ma
cs.AI
Аннотация
В последние годы развитие моделей диффузии привело к значительному прогрессу в задачах генерации изображений и видео, с предварительно обученными моделями, такими как серия Stable Diffusion, играющими ключевую роль. Вдохновленные обрезкой моделей, которая уменьшает крупные предварительно обученные модели путем удаления неважных параметров, мы предлагаем новый метод настройки модели для полного использования этих неэффективных параметров и придания предварительно обученной модели новых специфических для задачи возможностей. В данной работе мы первоначально исследуем важность параметров в предварительно обученных моделях диффузии и обнаруживаем, что наименьшие 10% до 20% параметров по абсолютным значениям не вносят вклад в процесс генерации. Исходя из этого наблюдения, мы предлагаем метод под названием SaRA, который повторно использует эти временно неэффективные параметры, что эквивалентно оптимизации разреженной матрицы весов для изучения задаче-специфических знаний. Для смягчения переобучения мы предлагаем схему обучения с низкоранговой разреженностью на основе ядерной нормы для эффективной настройки. Кроме того, мы разрабатываем новую прогрессивную стратегию настройки параметров для полного использования повторно обученных/перенастроенных параметров. Наконец, мы предлагаем новую стратегию обратного распространения без структуры, которая значительно снижает затраты памяти во время настройки. Наш метод улучшает генеративные возможности предварительно обученных моделей в прикладных задачах и превосходит традиционные методы настройки, такие как LoRA, в поддержании обобщающей способности модели. Мы проверяем наш подход через эксперименты по настройке моделей SD, демонстрируя значительные улучшения. SaRA также предлагает практическое преимущество, требующее только одной строки изменения кода для эффективной реализации и без проблем совместим с существующими методами.
English
In recent years, the development of diffusion models has led to significant
progress in image and video generation tasks, with pre-trained models like the
Stable Diffusion series playing a crucial role. Inspired by model pruning which
lightens large pre-trained models by removing unimportant parameters, we
propose a novel model fine-tuning method to make full use of these ineffective
parameters and enable the pre-trained model with new task-specified
capabilities. In this work, we first investigate the importance of parameters
in pre-trained diffusion models, and discover that the smallest 10% to 20% of
parameters by absolute values do not contribute to the generation process.
Based on this observation, we propose a method termed SaRA that re-utilizes
these temporarily ineffective parameters, equating to optimizing a sparse
weight matrix to learn the task-specific knowledge. To mitigate overfitting, we
propose a nuclear-norm-based low-rank sparse training scheme for efficient
fine-tuning. Furthermore, we design a new progressive parameter adjustment
strategy to make full use of the re-trained/finetuned parameters. Finally, we
propose a novel unstructural backpropagation strategy, which significantly
reduces memory costs during fine-tuning. Our method enhances the generative
capabilities of pre-trained models in downstream applications and outperforms
traditional fine-tuning methods like LoRA in maintaining model's generalization
ability. We validate our approach through fine-tuning experiments on SD models,
demonstrating significant improvements. SaRA also offers a practical advantage
that requires only a single line of code modification for efficient
implementation and is seamlessly compatible with existing methods.Summary
AI-Generated Summary