ChatPaper.aiChatPaper

Diffusionsmodelle ohne Classifier-free Guidance

Diffusion Models without Classifier-free Guidance

February 17, 2025
Autoren: Zhicong Tang, Jianmin Bao, Dong Chen, Baining Guo
cs.AI

Zusammenfassung

Dieses Artikel präsentiert Model-guidance (MG), ein neuartiges Ziel für das Training von Diffusionsmodellen, das die häufig verwendete Classifier-free Guidance (CFG) adressiert und entfernt. Unser innovativer Ansatz geht über die Standardmodellierung der reinen Datenverteilung hinaus und integriert die Posterior-Wahrscheinlichkeit von Bedingungen. Die vorgeschlagene Technik basiert auf der Idee der CFG und ist einfach, aber effektiv, was sie zu einem Plug-and-Play-Modul für bestehende Modelle macht. Unsere Methode beschleunigt den Trainingsprozess erheblich, verdoppelt die Inferenzgeschwindigkeit und erreicht eine außergewöhnliche Qualität, die mit aktuellen Diffusionsmodellen mit CFG gleichzieht und diese sogar übertrifft. Umfangreiche Experimente demonstrieren die Wirksamkeit, Effizienz und Skalierbarkeit bei verschiedenen Modellen und Datensätzen. Schließlich erzielen wir state-of-the-art Leistungen auf den ImageNet-256-Benchmarks mit einem FID von 1,34. Unser Code ist unter https://github.com/tzco/Diffusion-wo-CFG verfügbar.
English
This paper presents Model-guidance (MG), a novel objective for training diffusion model that addresses and removes of the commonly used Classifier-free guidance (CFG). Our innovative approach transcends the standard modeling of solely data distribution to incorporating the posterior probability of conditions. The proposed technique originates from the idea of CFG and is easy yet effective, making it a plug-and-play module for existing models. Our method significantly accelerates the training process, doubles the inference speed, and achieve exceptional quality that parallel and even surpass concurrent diffusion models with CFG. Extensive experiments demonstrate the effectiveness, efficiency, scalability on different models and datasets. Finally, we establish state-of-the-art performance on ImageNet 256 benchmarks with an FID of 1.34. Our code is available at https://github.com/tzco/Diffusion-wo-CFG.
PDF72February 19, 2025