Phasenweise DMD: Few-Step-Distribution-Matching-Distillation durch Score-Matching innerhalb von Teilintervallen
Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals
October 31, 2025
papers.authors: Xiangyu Fan, Zesong Qiu, Zhuguanyu Wu, Fanzhou Wang, Zhiqian Lin, Tianxiang Ren, Dahua Lin, Ruihao Gong, Lei Yang
cs.AI
papers.abstract
Distribution Matching Distillation (DMD) destilliert score-basierte generative Modelle in effiziente Ein-Schritt-Generatoren, ohne eine Eins-zu-eins-Entsprechung zu den Sampling-Trajektorien ihrer Lehrer zu erfordern. Allerdings führt eine begrenzte Modellkapazität dazu, dass Ein-Schritt-destillierte Modelle bei komplexen generativen Aufgaben unterperformen, z.B. bei der Synthese aufwändiger Objektbewegungen in der Text-zu-Video-Generierung. Eine direkte Erweiterung von DMD auf eine Mehrschritt-Destillation erhöht den Speicherverbrauch und die rechnerische Tiefe, was zu Instabilität und verringerter Effizienz führt. Während frühere Arbeiten stochastische Gradientenabschneidung als mögliche Lösung vorschlagen, beobachten wir, dass diese die Generierungsvielfalt von Mehrschritt-destillierten Modellen erheblich reduziert und auf das Niveau ihrer Ein-Schritt-Pendants senkt. Um diese Einschränkungen zu adressieren, schlagen wir Phased DMD vor, ein Mehrschritt-Destillationsframework, das die Idee der phasenweisen Destillation mit Mixture-of-Experts (MoE) verbindet, um die Lernschwierigkeit zu verringern und gleichzeitig die Modellkapazität zu erhöhen. Phased DMD basiert auf zwei Schlüsselideen: progressive Distribution Matching und Score Matching innerhalb von Teilintervallen. Erstens teilt unser Modell den SNR-Bereich in Teilintervalle auf und verfeinert das Modell progressiv zu höheren SNR-Niveaus, um komplexe Verteilungen besser zu erfassen. Um sicherzustellen, dass das Trainingsziel innerhalb jedes Teilintervalls genau ist, haben wir rigorose mathematische Ableitungen durchgeführt. Wir validieren Phased DMD durch die Destillation modernster Bild- und Videogenerierungsmodelle, einschließlich Qwen-Image (20B Parameter) und Wan2.2 (28B Parameter). Experimentelle Ergebnisse zeigen, dass Phased DMD die Ausgabevielfalt besser bewahrt als DMD, während wesentliche generative Fähigkeiten erhalten bleiben. Wir werden unseren Code und unsere Modelle veröffentlichen.
English
Distribution Matching Distillation (DMD) distills score-based generative
models into efficient one-step generators, without requiring a one-to-one
correspondence with the sampling trajectories of their teachers. However,
limited model capacity causes one-step distilled models underperform on complex
generative tasks, e.g., synthesizing intricate object motions in text-to-video
generation. Directly extending DMD to multi-step distillation increases memory
usage and computational depth, leading to instability and reduced efficiency.
While prior works propose stochastic gradient truncation as a potential
solution, we observe that it substantially reduces the generation diversity of
multi-step distilled models, bringing it down to the level of their one-step
counterparts. To address these limitations, we propose Phased DMD, a multi-step
distillation framework that bridges the idea of phase-wise distillation with
Mixture-of-Experts (MoE), reducing learning difficulty while enhancing model
capacity. Phased DMD is built upon two key ideas: progressive distribution
matching and score matching within subintervals. First, our model divides the
SNR range into subintervals, progressively refining the model to higher SNR
levels, to better capture complex distributions. Next, to ensure the training
objective within each subinterval is accurate, we have conducted rigorous
mathematical derivations. We validate Phased DMD by distilling state-of-the-art
image and video generation models, including Qwen-Image (20B parameters) and
Wan2.2 (28B parameters). Experimental results demonstrate that Phased DMD
preserves output diversity better than DMD while retaining key generative
capabilities. We will release our code and models.