Distillation par Appariement de Distribution Préservant la Diversité pour la Synthèse Visuelle Rapide
Diversity-Preserved Distribution Matching Distillation for Fast Visual Synthesis
February 3, 2026
papers.authors: Tianhe Wu, Ruibin Li, Lei Zhang, Kede Ma
cs.AI
papers.abstract
La distillation par correspondance de distribution (DMD) aligne un générateur multi-étapes avec sa contrepartie à faible nombre d'étapes pour permettre une génération de haute qualité à faible coût d'inférence. Cependant, la DMD a tendance à souffrir d'un effondrement des modes, car sa formulation basée sur la divergence KL inverse favorise intrinsèquement un comportement de recherche de mode. Les remèdes existants reposent généralement sur une régularisation perceptuelle ou antagoniste, entraînant ainsi une surcharge computationnelle substantielle et une instabilité de l'apprentissage. Dans ce travail, nous proposons un cadre de distillation à rôles séparés qui désentrelace explicitement les rôles des étapes distillées : la première étape est dédiée à la préservation de la diversité des échantillons via un objectif de prédiction cible (par exemple, la prédiction-v), tandis que les étapes suivantes se concentrent sur l'amélioration de la qualité sous la perte DMD standard, les gradients de l'objectif DMD étant bloqués à la première étape. Nous nommons cette approche DMD à Diversité Préservée (DP-DMD), laquelle, malgré sa simplicité – pas de réseau perceptuel, pas de discriminateur, pas de réseaux auxiliaires et pas d'images de vérité terrain supplémentaires – préserve la diversité des échantillons tout en maintenant une qualité visuelle comparable aux méthodes de pointe dans des expériences étendues de texte-à-image.
English
Distribution matching distillation (DMD) aligns a multi-step generator with its few-step counterpart to enable high-quality generation under low inference cost. However, DMD tends to suffer from mode collapse, as its reverse-KL formulation inherently encourages mode-seeking behavior, for which existing remedies typically rely on perceptual or adversarial regularization, thereby incurring substantial computational overhead and training instability. In this work, we propose a role-separated distillation framework that explicitly disentangles the roles of distilled steps: the first step is dedicated to preserving sample diversity via a target-prediction (e.g., v-prediction) objective, while subsequent steps focus on quality refinement under the standard DMD loss, with gradients from the DMD objective blocked at the first step. We term this approach Diversity-Preserved DMD (DP-DMD), which, despite its simplicity -- no perceptual backbone, no discriminator, no auxiliary networks, and no additional ground-truth images -- preserves sample diversity while maintaining visual quality on par with state-of-the-art methods in extensive text-to-image experiments.