SNOOPI: Super aufgeladene Ein-Schritt-Diffusionsdestillation mit angemessener Führung
SNOOPI: Supercharged One-step Diffusion Distillation with Proper Guidance
December 3, 2024
Autoren: Viet Nguyen, Anh Aengus Nguyen, Trung Dao, Khoi Nguyen, Cuong Pham, Toan Tran, Anh Tran
cs.AI
Zusammenfassung
Aktuelle Ansätze haben vielversprechende Ergebnisse bei der Destillation von mehrstufigen Text-zu-Bild-Diffusionsmodellen in Ein-Schritt-Modelle geliefert. Die effiziente Destillationstechnik der Spitzenklasse, d.h. SwiftBrushv2 (SBv2), übertrifft sogar die Leistung des Lehrmodells mit begrenzten Ressourcen. Allerdings zeigt unsere Studie Instabilitäten bei der Handhabung verschiedener Diffusionsmodell-Backbones aufgrund der Verwendung einer festen Anleitungsskala im Rahmen des Variational Score Distillation (VSD)-Verlusts auf. Eine weitere Schwäche der bestehenden Ein-Schritt-Diffusionsmodelle ist das Fehlen von Unterstützung für negative Anleitungshinweise, die bei der praktischen Bildgenerierung entscheidend sind. Dieser Artikel stellt SNOOPI vor, ein neuartiges Framework, das entwickelt wurde, um diese Einschränkungen durch die Verbesserung der Anleitung in Ein-Schritt-Diffusionsmodellen während des Trainings und der Inferenz zu adressieren. Zunächst verbessern wir die Trainingsstabilität effektiv durch Proper Guidance-SwiftBrush (PG-SB), das einen zufälligen Skalen klassenfreien Anleitungszugang verwendet. Durch Variation der Anleitungsskala beider Lehrmodelle erweitern wir ihre Ausgabeverteilungen, was zu einem robusteren VSD-Verlust führt, der es SB ermöglicht, effektiv über verschiedene Backbones hinweg zu agieren, während eine wettbewerbsfähige Leistung beibehalten wird. Zweitens schlagen wir eine trainingsfreie Methode namens Negative-Away Steer Attention (NASA) vor, die negative Hinweise in Ein-Schritt-Diffusionsmodelle über Kreuz-Aufmerksamkeit integriert, um unerwünschte Elemente in generierten Bildern zu unterdrücken. Unsere experimentellen Ergebnisse zeigen, dass unsere vorgeschlagenen Methoden die Basismodelle signifikant verbessern. Bemerkenswerterweise erreichen wir einen HPSv2-Score von 31,08 und setzen damit einen neuen Spitzenwert für Ein-Schritt-Diffusionsmodelle.
English
Recent approaches have yielded promising results in distilling multi-step
text-to-image diffusion models into one-step ones. The state-of-the-art
efficient distillation technique, i.e., SwiftBrushv2 (SBv2), even surpasses the
teacher model's performance with limited resources. However, our study reveals
its instability when handling different diffusion model backbones due to using
a fixed guidance scale within the Variational Score Distillation (VSD) loss.
Another weakness of the existing one-step diffusion models is the missing
support for negative prompt guidance, which is crucial in practical image
generation. This paper presents SNOOPI, a novel framework designed to address
these limitations by enhancing the guidance in one-step diffusion models during
both training and inference. First, we effectively enhance training stability
through Proper Guidance-SwiftBrush (PG-SB), which employs a random-scale
classifier-free guidance approach. By varying the guidance scale of both
teacher models, we broaden their output distributions, resulting in a more
robust VSD loss that enables SB to perform effectively across diverse backbones
while maintaining competitive performance. Second, we propose a training-free
method called Negative-Away Steer Attention (NASA), which integrates negative
prompts into one-step diffusion models via cross-attention to suppress
undesired elements in generated images. Our experimental results show that our
proposed methods significantly improve baseline models across various metrics.
Remarkably, we achieve an HPSv2 score of 31.08, setting a new state-of-the-art
benchmark for one-step diffusion models.Summary
AI-Generated Summary