Modèles de diffusion sans guidance sans classifieur
Diffusion Models without Classifier-free Guidance
February 17, 2025
papers.authors: Zhicong Tang, Jianmin Bao, Dong Chen, Baining Guo
cs.AI
papers.abstract
Cet article présente Model-guidance (MG), un objectif novateur pour l'entraînement des modèles de diffusion qui remplace et élimine l'utilisation courante du Classifier-free guidance (CFG). Notre approche innovante va au-delà de la modélisation standard de la seule distribution des données en intégrant la probabilité a posteriori des conditions. La technique proposée s'inspire de l'idée du CFG et est à la fois simple et efficace, ce qui en fait un module plug-and-play pour les modèles existants. Notre méthode accélère considérablement le processus d'entraînement, double la vitesse d'inférence et atteint une qualité exceptionnelle, rivalisant voire surpassant les modèles de diffusion concurrents utilisant le CFG. Des expériences approfondies démontrent l'efficacité, l'efficience et la scalabilité de notre méthode sur différents modèles et jeux de données. Enfin, nous établissons des performances de pointe sur les benchmarks ImageNet 256 avec un FID de 1,34. Notre code est disponible à l'adresse suivante : https://github.com/tzco/Diffusion-wo-CFG.
English
This paper presents Model-guidance (MG), a novel objective for training
diffusion model that addresses and removes of the commonly used Classifier-free
guidance (CFG). Our innovative approach transcends the standard modeling of
solely data distribution to incorporating the posterior probability of
conditions. The proposed technique originates from the idea of CFG and is easy
yet effective, making it a plug-and-play module for existing models. Our method
significantly accelerates the training process, doubles the inference speed,
and achieve exceptional quality that parallel and even surpass concurrent
diffusion models with CFG. Extensive experiments demonstrate the effectiveness,
efficiency, scalability on different models and datasets. Finally, we establish
state-of-the-art performance on ImageNet 256 benchmarks with an FID of 1.34.
Our code is available at https://github.com/tzco/Diffusion-wo-CFG.