Schnelle hochauflösende Bildsynthese mit latenter adversarischer DiffusionsdestillationFast High-Resolution Image Synthesis with Latent Adversarial Diffusion
Distillation
Diffusionsmodelle sind der Haupttreiber des Fortschritts in der Bild- und Videosynthese, leiden jedoch unter langsamer Inferenzgeschwindigkeit. Destillationsmethoden, wie das kürzlich eingeführte adversarielle Diffusionsdestillationsverfahren (ADD), zielen darauf ab, das Modell von einer Mehrschuss- zu einer Einzelschritt-Inferenz zu verschieben, jedoch auf Kosten einer teuren und schwierigen Optimierung aufgrund der Abhängigkeit von einem festen vortrainierten DINOv2-Diskriminator. Wir stellen Latent Adversarial Diffusion Distillation (LADD) vor, einen neuartigen Destillationsansatz, der die Einschränkungen von ADD überwindet. Im Gegensatz zu pixelbasiertem ADD nutzt LADD generative Merkmale aus vortrainierten latenten Diffusionsmodellen. Dieser Ansatz vereinfacht das Training und verbessert die Leistung, ermöglicht die Synthese von hochauflösenden Bildern mit verschiedenen Seitenverhältnissen. Wir wenden LADD auf Stable Diffusion 3 (8B) an, um SD3-Turbo zu erhalten, ein schnelles Modell, das die Leistungsfähigkeit modernster Text-zu-Bild-Generatoren mit nur vier ungesteuerten Abtastschritten erreicht. Darüber hinaus untersuchen wir systematisch sein Skalierungsverhalten und zeigen die Wirksamkeit von LADD in verschiedenen Anwendungen wie Bildbearbeitung und Inpainting auf.