SaRA: Ottimizzazione ad Alta Efficienza del Modello di Diffusione tramite Adattamento Progressivo Sparso a Basso Rango
SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation
September 10, 2024
Autori: Teng Hu, Jiangning Zhang, Ran Yi, Hongrui Huang, Yabiao Wang, Lizhuang Ma
cs.AI
Abstract
Negli ultimi anni, lo sviluppo dei modelli di diffusione ha portato a progressi significativi nei compiti di generazione di immagini e video, con modelli pre-addestrati come la serie Stable Diffusion che svolgono un ruolo cruciale. Ispirati dalla potatura del modello che alleggerisce i grandi modelli pre-addestrati rimuovendo i parametri non importanti, proponiamo un nuovo metodo di raffinamento del modello per sfruttare appieno questi parametri inefficaci ed abilitare il modello pre-addestrato con nuove capacità specifiche per il compito. In questo lavoro, indaghiamo innanzitutto l'importanza dei parametri nei modelli di diffusione pre-addestrati e scopriamo che il 10% al 20% più piccolo dei parametri per valore assoluto non contribuisce al processo di generazione. Sulla base di questa osservazione, proponiamo un metodo chiamato SaRA che riutilizza questi parametri temporaneamente inefficaci, ottimizzando una matrice di pesi sparsi per apprendere la conoscenza specifica del compito. Per mitigare l'overfitting, proponiamo uno schema di addestramento sparsamente a basso rango basato sulla norma nucleare per un raffinamento efficiente. Inoltre, progettiamo una nuova strategia di aggiustamento progressivo dei parametri per sfruttare appieno i parametri riaaddestrati/raffinati. Infine, proponiamo una nuova strategia di backpropagation non strutturata, che riduce significativamente i costi di memoria durante il raffinamento. Il nostro metodo potenzia le capacità generative dei modelli pre-addestrati nelle applicazioni derivate e supera i tradizionali metodi di raffinamento come LoRA nel mantenere la capacità di generalizzazione del modello. Convalidiamo il nostro approccio attraverso esperimenti di raffinamento sui modelli SD, dimostrando significativi miglioramenti. SaRA offre anche un vantaggio pratico che richiede solo una singola modifica di codice per un'implementazione efficiente ed è perfettamente compatibile con i metodi esistenti.
English
In recent years, the development of diffusion models has led to significant
progress in image and video generation tasks, with pre-trained models like the
Stable Diffusion series playing a crucial role. Inspired by model pruning which
lightens large pre-trained models by removing unimportant parameters, we
propose a novel model fine-tuning method to make full use of these ineffective
parameters and enable the pre-trained model with new task-specified
capabilities. In this work, we first investigate the importance of parameters
in pre-trained diffusion models, and discover that the smallest 10% to 20% of
parameters by absolute values do not contribute to the generation process.
Based on this observation, we propose a method termed SaRA that re-utilizes
these temporarily ineffective parameters, equating to optimizing a sparse
weight matrix to learn the task-specific knowledge. To mitigate overfitting, we
propose a nuclear-norm-based low-rank sparse training scheme for efficient
fine-tuning. Furthermore, we design a new progressive parameter adjustment
strategy to make full use of the re-trained/finetuned parameters. Finally, we
propose a novel unstructural backpropagation strategy, which significantly
reduces memory costs during fine-tuning. Our method enhances the generative
capabilities of pre-trained models in downstream applications and outperforms
traditional fine-tuning methods like LoRA in maintaining model's generalization
ability. We validate our approach through fine-tuning experiments on SD models,
demonstrating significant improvements. SaRA also offers a practical advantage
that requires only a single line of code modification for efficient
implementation and is seamlessly compatible with existing methods.Summary
AI-Generated Summary