DMD Découplé : L'Augmentation CFG comme Lance, l'Appariement de Distributions comme Bouclier
Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield
November 27, 2025
papers.authors: Dongyang Liu, Peng Gao, David Liu, Ruoyi Du, Zhen Li, Qilong Wu, Xin Jin, Sihan Cao, Shifeng Zhang, Hongsheng Li, Steven Hoi
cs.AI
papers.abstract
La distillation de modèles de diffusion est apparue comme une technique puissante pour créer des générateurs efficaces en quelques étapes, voire en une seule étape. Parmi celles-ci, la Distillation par Appariement de Distributions (DMD) et ses variantes se distinguent par leurs performances impressionnantes, largement attribuées à leur mécanisme central d'appariement de la distribution de sortie de l'élève avec celle d'un modèle enseignant pré-entraîné. Dans ce travail, nous remettons en question cette compréhension conventionnelle. Grâce à une décomposition rigoureuse de l'objectif d'entraînement DMD, nous révélons que pour des tâches complexes comme la génération d'images à partir de texte, où le CFG est généralement requis pour des performances satisfaisantes en peu d'étapes, le principal moteur de la distillation en peu d'étapes n'est pas l'appariement des distributions, mais une composante jusqu'alors négligée que nous identifions comme l'Augmentation par CFG (CA). Nous démontrons que ce terme agit comme le « moteur » central de la distillation, tandis que le terme d'Appariement de Distributions (DM) fonctionne comme un « régularisateur » qui assure la stabilité de l'entraînement et atténue les artéfacts. Nous validons ensuite cette dissociation en montrant que si le terme DM est un régularisateur très efficace, il n'est pas unique ; des contraintes non paramétriques plus simples ou des objectifs basés sur les GAN peuvent remplir la même fonction de stabilisation, bien qu'avec des compromis différents. Cette dissociation des rôles motive une analyse plus fondamentale des propriétés des deux termes, conduisant à une compréhension plus systématique et approfondie. Cette nouvelle compréhension nous permet en outre de proposer des modifications raisonnées au processus de distillation, telles que la dissociation des échelles de bruit pour le moteur et le régularisateur, entraînant des gains de performances supplémentaires. Notamment, notre méthode a été adoptée par le projet Z-Image ( https://github.com/Tongyi-MAI/Z-Image ) pour développer un modèle de génération d'images de premier plan en seulement 8 étapes, validant empiriquement la généralisation et la robustesse de nos résultats.
English
Diffusion model distillation has emerged as a powerful technique for creating efficient few-step and single-step generators. Among these, Distribution Matching Distillation (DMD) and its variants stand out for their impressive performance, which is widely attributed to their core mechanism of matching the student's output distribution to that of a pre-trained teacher model. In this work, we challenge this conventional understanding. Through a rigorous decomposition of the DMD training objective, we reveal that in complex tasks like text-to-image generation, where CFG is typically required for desirable few-step performance, the primary driver of few-step distillation is not distribution matching, but a previously overlooked component we identify as CFG Augmentation (CA). We demonstrate that this term acts as the core ``engine'' of distillation, while the Distribution Matching (DM) term functions as a ``regularizer'' that ensures training stability and mitigates artifacts. We further validate this decoupling by demonstrating that while the DM term is a highly effective regularizer, it is not unique; simpler non-parametric constraints or GAN-based objectives can serve the same stabilizing function, albeit with different trade-offs. This decoupling of labor motivates a more principled analysis of the properties of both terms, leading to a more systematic and in-depth understanding. This new understanding further enables us to propose principled modifications to the distillation process, such as decoupling the noise schedules for the engine and the regularizer, leading to further performance gains. Notably, our method has been adopted by the Z-Image ( https://github.com/Tongyi-MAI/Z-Image ) project to develop a top-tier 8-step image generation model, empirically validating the generalization and robustness of our findings.