Diffusionsmodelle ohne Classifier-free Guidance
Diffusion Models without Classifier-free Guidance
February 17, 2025
Autoren: Zhicong Tang, Jianmin Bao, Dong Chen, Baining Guo
cs.AI
Zusammenfassung
Dieses Artikel präsentiert Model-guidance (MG), ein neuartiges Ziel für das Training von Diffusionsmodellen, das die häufig verwendete Classifier-free Guidance (CFG) adressiert und entfernt. Unser innovativer Ansatz geht über die Standardmodellierung der reinen Datenverteilung hinaus und integriert die Posterior-Wahrscheinlichkeit von Bedingungen. Die vorgeschlagene Technik basiert auf der Idee der CFG und ist einfach, aber effektiv, was sie zu einem Plug-and-Play-Modul für bestehende Modelle macht. Unsere Methode beschleunigt den Trainingsprozess erheblich, verdoppelt die Inferenzgeschwindigkeit und erreicht eine außergewöhnliche Qualität, die mit aktuellen Diffusionsmodellen mit CFG gleichzieht und diese sogar übertrifft. Umfangreiche Experimente demonstrieren die Wirksamkeit, Effizienz und Skalierbarkeit bei verschiedenen Modellen und Datensätzen. Schließlich erzielen wir state-of-the-art Leistungen auf den ImageNet-256-Benchmarks mit einem FID von 1,34. Unser Code ist unter https://github.com/tzco/Diffusion-wo-CFG verfügbar.
English
This paper presents Model-guidance (MG), a novel objective for training
diffusion model that addresses and removes of the commonly used Classifier-free
guidance (CFG). Our innovative approach transcends the standard modeling of
solely data distribution to incorporating the posterior probability of
conditions. The proposed technique originates from the idea of CFG and is easy
yet effective, making it a plug-and-play module for existing models. Our method
significantly accelerates the training process, doubles the inference speed,
and achieve exceptional quality that parallel and even surpass concurrent
diffusion models with CFG. Extensive experiments demonstrate the effectiveness,
efficiency, scalability on different models and datasets. Finally, we establish
state-of-the-art performance on ImageNet 256 benchmarks with an FID of 1.34.
Our code is available at https://github.com/tzco/Diffusion-wo-CFG.