ChatPaper.aiChatPaper

Vielfalt-erhaltende Verteilungsabgleichs-Distillation für schnelle visuelle Synthese

Diversity-Preserved Distribution Matching Distillation for Fast Visual Synthesis

February 3, 2026
papers.authors: Tianhe Wu, Ruibin Li, Lei Zhang, Kede Ma
cs.AI

papers.abstract

Distribution Matching Distillation (DMD) richtet einen mehrstufigen Generator an seinem wenigschnittigen Gegenstück aus, um hochwertige Generierung bei geringen Inferenzkosten zu ermöglichen. Allerdings neigt DMD zu Moduszusammenbruch, da seine Reverse-KL-Formulierung von Natur aus modus-suchendes Verhalten fördert. Bisherige Abhilfemaßnahmen basieren typischerweise auf perzeptueller oder adversarieller Regularisierung, was erheblichen Rechenaufwand und Trainingsinstabilität verursacht. In dieser Arbeit schlagen wir ein rollengetrenntes Distillationsframework vor, das die Rollen der destillierten Schritte explizit entkoppelt: Der erste Schritt ist der Bewahrung der Probenvielfalt über ein Zielprädiktionsziel (z.B. v-Prediction) gewidmet, während nachfolgende Schritte die Qualitätsverbesserung unter dem standardmäßigen DMD-Verlust fokussieren, wobei die Gradienten des DMD-Ziels im ersten Schritt blockiert werden. Wir bezeichnen diesen Ansatz als Diversity-Preserved DMD (DP-DMD), der trotz seiner Einfachheit – ohne perzeptuelles Backbone, ohne Diskriminator, ohne Zusatznetzwerke und ohne zusätzliche Ground-Truth-Bilder – die Probenvielfalt bewahrt und dabei eine visuelle Qualität auf Augenhöhe mit state-of-the-art Methoden in umfangreichen Text-zu-Bild-Experimenten beibehält.
English
Distribution matching distillation (DMD) aligns a multi-step generator with its few-step counterpart to enable high-quality generation under low inference cost. However, DMD tends to suffer from mode collapse, as its reverse-KL formulation inherently encourages mode-seeking behavior, for which existing remedies typically rely on perceptual or adversarial regularization, thereby incurring substantial computational overhead and training instability. In this work, we propose a role-separated distillation framework that explicitly disentangles the roles of distilled steps: the first step is dedicated to preserving sample diversity via a target-prediction (e.g., v-prediction) objective, while subsequent steps focus on quality refinement under the standard DMD loss, with gradients from the DMD objective blocked at the first step. We term this approach Diversity-Preserved DMD (DP-DMD), which, despite its simplicity -- no perceptual backbone, no discriminator, no auxiliary networks, and no additional ground-truth images -- preserves sample diversity while maintaining visual quality on par with state-of-the-art methods in extensive text-to-image experiments.
PDF312February 5, 2026