SaRA: Hoch effizientes Diffusionsmodell Feinabstimmung mit progressiver dünnbesetzter Niederrang-Anpassung.
SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation
September 10, 2024
Autoren: Teng Hu, Jiangning Zhang, Ran Yi, Hongrui Huang, Yabiao Wang, Lizhuang Ma
cs.AI
Zusammenfassung
In den letzten Jahren hat die Entwicklung von Diffusionsmodellen zu signifikanten Fortschritten bei der Bild- und Videogenerierung geführt, wobei vorab trainierte Modelle wie die Stable Diffusion-Serie eine entscheidende Rolle spielen. Inspiriert von der Modellpruning-Technik, die große vorab trainierte Modelle durch Entfernen unwichtiger Parameter reduziert, schlagen wir eine neuartige Methode zur Feinabstimmung von Modellen vor, um diese ineffektiven Parameter voll auszuschöpfen und dem vorab trainierten Modell neue, aufgabenbezogene Fähigkeiten zu verleihen. In dieser Arbeit untersuchen wir zunächst die Bedeutung von Parametern in vorab trainierten Diffusionsmodellen und stellen fest, dass die kleinsten 10% bis 20% der Parameter nach absoluten Werten nicht zum Generierungsprozess beitragen. Basierend auf dieser Beobachtung schlagen wir eine Methode namens SaRA vor, die diese vorübergehend ineffektiven Parameter wiederverwendet, um eine dünnbesetzte Gewichtsmatrix zu optimieren und das aufgabenbezogene Wissen zu erlernen. Zur Vermeidung von Überanpassung schlagen wir ein nuklearnormbasiertes Low-Rank-Sparse-Trainingsschema für effiziente Feinabstimmung vor. Darüber hinaus entwerfen wir eine neue progressive Parameteranpassungsstrategie, um die wiederausgebildeten/feinabgestimmten Parameter voll auszuschöpfen. Schließlich schlagen wir eine neuartige unstrukturierte Backpropagation-Strategie vor, die die Speicherkosten während der Feinabstimmung signifikant reduziert. Unsere Methode verbessert die generativen Fähigkeiten vorab trainierter Modelle in nachgelagerten Anwendungen und übertrifft traditionelle Feinabstimmungsmethoden wie LoRA bei der Aufrechterhaltung der Generalisierungsfähigkeit des Modells. Wir validieren unseren Ansatz durch Feinabstimmungsexperimente an SD-Modellen, die signifikante Verbesserungen zeigen. SaRA bietet auch einen praktischen Vorteil, da nur eine einzige Code-Änderung für eine effiziente Implementierung erforderlich ist und nahtlos mit bestehenden Methoden kompatibel ist.
English
In recent years, the development of diffusion models has led to significant
progress in image and video generation tasks, with pre-trained models like the
Stable Diffusion series playing a crucial role. Inspired by model pruning which
lightens large pre-trained models by removing unimportant parameters, we
propose a novel model fine-tuning method to make full use of these ineffective
parameters and enable the pre-trained model with new task-specified
capabilities. In this work, we first investigate the importance of parameters
in pre-trained diffusion models, and discover that the smallest 10% to 20% of
parameters by absolute values do not contribute to the generation process.
Based on this observation, we propose a method termed SaRA that re-utilizes
these temporarily ineffective parameters, equating to optimizing a sparse
weight matrix to learn the task-specific knowledge. To mitigate overfitting, we
propose a nuclear-norm-based low-rank sparse training scheme for efficient
fine-tuning. Furthermore, we design a new progressive parameter adjustment
strategy to make full use of the re-trained/finetuned parameters. Finally, we
propose a novel unstructural backpropagation strategy, which significantly
reduces memory costs during fine-tuning. Our method enhances the generative
capabilities of pre-trained models in downstream applications and outperforms
traditional fine-tuning methods like LoRA in maintaining model's generalization
ability. We validate our approach through fine-tuning experiments on SD models,
demonstrating significant improvements. SaRA also offers a practical advantage
that requires only a single line of code modification for efficient
implementation and is seamlessly compatible with existing methods.Summary
AI-Generated Summary