ChatPaper.aiChatPaper

Entkoppeltes DMD: CFG-Erweiterung als Speer, Verteilungsabgleich als Schild

Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield

November 27, 2025
papers.authors: Dongyang Liu, Peng Gao, David Liu, Ruoyi Du, Zhen Li, Qilong Wu, Xin Jin, Sihan Cao, Shifeng Zhang, Hongsheng Li, Steven Hoi
cs.AI

papers.abstract

Diffusionsmodell-Distillation hat sich als leistungsstarke Technik zur Erstellung effizienter Generatoren mit wenigen oder nur einem Schritt etabliert. Hierbei stechen insbesondere Distribution Matching Distillation (DMD) und deren Varianten durch ihre beeindruckende Leistung hervor, die gemeinhin auf ihren Kernmechanismus zurückgeführt wird: die Anpassung der Ausgabeverteilung des Schülermodells an die eines vortrainierten Lehrermodells. In dieser Arbeit stellen wir dieses konventionelle Verständnis in Frage. Durch eine rigorose Zerlegung des DMD-Trainingsziels zeigen wir, dass bei komplexen Aufgaben wie der Text-zu-Bild-Generierung, bei der typischerweise CFG für eine wünschenswerte Leistung mit wenigen Schritten erforderlich ist, nicht das Distribution Matching der primäre Treiber der Distillation mit wenigen Schritten ist, sondern eine bisher übersehene Komponente, die wir als CFG-Augmentierung (CA) identifizieren. Wir demonstrieren, dass dieser Term als zentrale „Triebkraft“ der Distillation wirkt, während der Distribution-Matching-(DM)-Term als „Regularisierer“ fungiert, der die Trainingsstabilität gewährleistet und Artefakte mildert. Wir validieren diese Entkopplung weiter, indem wir zeigen, dass der DM-Term zwar ein hochwirksamer Regularisierer ist, aber nicht einzigartig; einfachere nicht-parametrische Zwangsbedingungen oder GAN-basierte Ziele können dieselbe stabilisierende Funktion erfüllen, wenn auch mit anderen Kompromissen. Diese Aufgabentrennung motiviert eine prinzipiellere Analyse der Eigenschaften beider Terme, was zu einem systematischeren und tieferen Verständnis führt. Dieses neue Verständnis ermöglicht es uns weiterhin, prinzipielle Modifikationen des Distillationsprozesses vorzuschlagen, wie z.B. die Entkopplung der Rauschpläne für die Triebkraft und den Regularisierer, was zu weiteren Leistungssteigerungen führt. Bemerkenswerterweise wurde unsere Methode vom Z-Image-Projekt (https://github.com/Tongyi-MAI/Z-Image) übernommen, um ein erstklassiges 8-Schritt-Bildgenerierungsmodell zu entwickeln, was die Generalisierbarkeit und Robustheit unserer Erkenntnisse empirisch validiert.
English
Diffusion model distillation has emerged as a powerful technique for creating efficient few-step and single-step generators. Among these, Distribution Matching Distillation (DMD) and its variants stand out for their impressive performance, which is widely attributed to their core mechanism of matching the student's output distribution to that of a pre-trained teacher model. In this work, we challenge this conventional understanding. Through a rigorous decomposition of the DMD training objective, we reveal that in complex tasks like text-to-image generation, where CFG is typically required for desirable few-step performance, the primary driver of few-step distillation is not distribution matching, but a previously overlooked component we identify as CFG Augmentation (CA). We demonstrate that this term acts as the core ``engine'' of distillation, while the Distribution Matching (DM) term functions as a ``regularizer'' that ensures training stability and mitigates artifacts. We further validate this decoupling by demonstrating that while the DM term is a highly effective regularizer, it is not unique; simpler non-parametric constraints or GAN-based objectives can serve the same stabilizing function, albeit with different trade-offs. This decoupling of labor motivates a more principled analysis of the properties of both terms, leading to a more systematic and in-depth understanding. This new understanding further enables us to propose principled modifications to the distillation process, such as decoupling the noise schedules for the engine and the regularizer, leading to further performance gains. Notably, our method has been adopted by the Z-Image ( https://github.com/Tongyi-MAI/Z-Image ) project to develop a top-tier 8-step image generation model, empirically validating the generalization and robustness of our findings.
PDF111December 2, 2025