ChatPaper.aiChatPaper

SaRA: Ajuste Fino de Modelo de Difusão de Alta Eficiência com Adaptação Progressiva Esparsa de Baixa Patente.

SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation

September 10, 2024
Autores: Teng Hu, Jiangning Zhang, Ran Yi, Hongrui Huang, Yabiao Wang, Lizhuang Ma
cs.AI

Resumo

Nos últimos anos, o desenvolvimento de modelos de difusão tem levado a avanços significativos em tarefas de geração de imagens e vídeos, com modelos pré-treinados como a série Stable Diffusion desempenhando um papel crucial. Inspirados pela poda de modelos, que reduz modelos pré-treinados grandes removendo parâmetros não importantes, propomos um novo método de ajuste fino de modelos para aproveitar ao máximo esses parâmetros ineficazes e capacitar o modelo pré-treinado com novas capacidades especificadas para tarefas. Neste trabalho, investigamos primeiramente a importância dos parâmetros em modelos de difusão pré-treinados e descobrimos que os 10% a 20% menores de parâmetros em termos absolutos não contribuem para o processo de geração. Com base nessa observação, propomos um método chamado SaRA que reutiliza esses parâmetros temporariamente ineficazes, otimizando uma matriz de pesos esparsa para aprender o conhecimento específico da tarefa. Para mitigar o overfitting, propomos um esquema de treinamento esparsa de baixa patente baseado na norma nuclear para ajuste fino eficiente. Além disso, projetamos uma nova estratégia de ajuste progressivo de parâmetros para aproveitar ao máximo os parâmetros retrabalhados/ajustados finamente. Por fim, propomos uma nova estratégia de retropropagação não estruturada, que reduz significativamente os custos de memória durante o ajuste fino. Nosso método aprimora as capacidades generativas de modelos pré-treinados em aplicações posteriores e supera métodos tradicionais de ajuste fino como o LoRA na manutenção da capacidade de generalização do modelo. Validamos nossa abordagem por meio de experimentos de ajuste fino em modelos SD, demonstrando melhorias significativas. O SaRA também oferece uma vantagem prática que requer apenas uma única modificação de linha de código para implementação eficiente e é perfeitamente compatível com métodos existentes.
English
In recent years, the development of diffusion models has led to significant progress in image and video generation tasks, with pre-trained models like the Stable Diffusion series playing a crucial role. Inspired by model pruning which lightens large pre-trained models by removing unimportant parameters, we propose a novel model fine-tuning method to make full use of these ineffective parameters and enable the pre-trained model with new task-specified capabilities. In this work, we first investigate the importance of parameters in pre-trained diffusion models, and discover that the smallest 10% to 20% of parameters by absolute values do not contribute to the generation process. Based on this observation, we propose a method termed SaRA that re-utilizes these temporarily ineffective parameters, equating to optimizing a sparse weight matrix to learn the task-specific knowledge. To mitigate overfitting, we propose a nuclear-norm-based low-rank sparse training scheme for efficient fine-tuning. Furthermore, we design a new progressive parameter adjustment strategy to make full use of the re-trained/finetuned parameters. Finally, we propose a novel unstructural backpropagation strategy, which significantly reduces memory costs during fine-tuning. Our method enhances the generative capabilities of pre-trained models in downstream applications and outperforms traditional fine-tuning methods like LoRA in maintaining model's generalization ability. We validate our approach through fine-tuning experiments on SD models, demonstrating significant improvements. SaRA also offers a practical advantage that requires only a single line of code modification for efficient implementation and is seamlessly compatible with existing methods.

Summary

AI-Generated Summary

PDF152November 16, 2024