Gedecoupleerde DMD: CFG-Augmentatie als de Speer, Distributie-afstemming als het Schild
Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield
November 27, 2025
Auteurs: Dongyang Liu, Peng Gao, David Liu, Ruoyi Du, Zhen Li, Qilong Wu, Xin Jin, Sihan Cao, Shifeng Zhang, Hongsheng Li, Steven Hoi
cs.AI
Samenvatting
Diffusiemodeldistillatie is naar voren gekomen als een krachtige techniek voor het creëren van efficiënte generatoren met weinig tot één stap. Hierin springen Distribution Matching Distillation (DMD) en zijn varianten eruit vanwege hun indrukwekkende prestaties, wat algemeen wordt toegeschreven aan hun kernmechanisme van het afstemmen van de uitvoerdistributie van de student op die van een vooraf getraind leraarmodel. In dit werk dagen we dit conventionele begrip uit. Door een rigoureuze decompositie van de DMD-trainingsdoelstelling onthullen we dat bij complexe taken zoals tekst-naar-beeldgeneratie, waar doorgaans CFG vereist is voor gewenste prestaties met weinig stappen, de primaire drijvende kracht van distillatie met weinig stappen niet distributie-afstemming is, maar een eerder over het hoofd gezien component dat wij identificeren als CFG Augmentatie (CA). Wij tonen aan dat deze term fungeert als de kern-"motor" van de distillatie, terwijl de Distributie-afstemmingsterm (DM) fungeert als een "regularisator" die de trainingsstabiliteit waarborgt en artefacten vermindert. We valideren deze ontkoppeling verder door aan te tonen dat hoewel de DM-term een zeer effectieve regularisator is, deze niet uniek is; eenvoudigere niet-parametrische beperkingen of op GAN gebaseerde doelstellingen kunnen dezelfde stabiliserende functie vervullen, zij het met andere afwegingen. Deze ontkoppeling van taken motiveert een meer principiële analyse van de eigenschappen van beide termen, wat leidt tot een systematischer en dieper begrip. Dit nieuwe inzicht stelt ons verder in staat om principiële aanpassingen aan het distillatieproces voor te stellen, zoals het ontkoppelen van de ruisschema's voor de motor en de regularisator, wat leidt tot verdere prestatieverbeteringen. Opmerkelijk is dat onze methode is overgenomen door het Z-Image ( https://github.com/Tongyi-MAI/Z-Image ) project om een topmodel voor beeldgeneratie in 8 stappen te ontwikkelen, wat de generalisatie en robuustheid van onze bevindingen empirisch valideert.
English
Diffusion model distillation has emerged as a powerful technique for creating efficient few-step and single-step generators. Among these, Distribution Matching Distillation (DMD) and its variants stand out for their impressive performance, which is widely attributed to their core mechanism of matching the student's output distribution to that of a pre-trained teacher model. In this work, we challenge this conventional understanding. Through a rigorous decomposition of the DMD training objective, we reveal that in complex tasks like text-to-image generation, where CFG is typically required for desirable few-step performance, the primary driver of few-step distillation is not distribution matching, but a previously overlooked component we identify as CFG Augmentation (CA). We demonstrate that this term acts as the core ``engine'' of distillation, while the Distribution Matching (DM) term functions as a ``regularizer'' that ensures training stability and mitigates artifacts. We further validate this decoupling by demonstrating that while the DM term is a highly effective regularizer, it is not unique; simpler non-parametric constraints or GAN-based objectives can serve the same stabilizing function, albeit with different trade-offs. This decoupling of labor motivates a more principled analysis of the properties of both terms, leading to a more systematic and in-depth understanding. This new understanding further enables us to propose principled modifications to the distillation process, such as decoupling the noise schedules for the engine and the regularizer, leading to further performance gains. Notably, our method has been adopted by the Z-Image ( https://github.com/Tongyi-MAI/Z-Image ) project to develop a top-tier 8-step image generation model, empirically validating the generalization and robustness of our findings.