ChatPaper.aiChatPaper

Diversiteit-Bewaarde Distributie-Matching Distillatie voor Snelle Visuele Synthese

Diversity-Preserved Distribution Matching Distillation for Fast Visual Synthesis

February 3, 2026
Auteurs: Tianhe Wu, Ruibin Li, Lei Zhang, Kede Ma
cs.AI

Samenvatting

Distributie-matchingdistillatie (DMD) brengt een multi-stap generator in overeenstemming met zijn tegenhanger met weinig stappen om hoogwaardige generatie tegen lage inferentiekosten mogelijk te maken. DMD heeft echter de neiging tot mode-collaps, omdat zijn reverse-KL-formulering van nature mode-zoekend gedrag aanmoedigt. Bestaande remedies zijn doorgaans afhankelijk van perceptuele of adversariële regularisatie, wat aanzienlijke rekenkosten en trainingsinstabiliteit met zich meebrengt. In dit werk stellen we een raamwerk voor op rolgescheiden distillatie dat de rollen van gedistilleerde stappen expliciet ontvlecht: de eerste stap is gewijd aan het behoud van steekproefdiversiteit via een doelvoorspellingsdoelstelling (bijv. v-predictie), terwijl volgende stappen zich richten op kwaliteitsverbetering onder het standaard DMD-verlies, waarbij gradienten van de DMD-doelstelling bij de eerste stap worden geblokkeerd. We noemen deze aanzoek Diversiteit-Behouden DMD (DP-DMD), die, ondanks zijn eenvoud – geen perceptuele backbone, geen discriminator, geen hulpnetwerken en geen extra grondwaarheidafbeeldingen – de steekproefdiversiteit behoudt en tegelijkertijd een visuele kwaliteit handhaaft die gelijk is aan state-of-the-art methoden in uitgebreide tekst-naar-beeld experimenten.
English
Distribution matching distillation (DMD) aligns a multi-step generator with its few-step counterpart to enable high-quality generation under low inference cost. However, DMD tends to suffer from mode collapse, as its reverse-KL formulation inherently encourages mode-seeking behavior, for which existing remedies typically rely on perceptual or adversarial regularization, thereby incurring substantial computational overhead and training instability. In this work, we propose a role-separated distillation framework that explicitly disentangles the roles of distilled steps: the first step is dedicated to preserving sample diversity via a target-prediction (e.g., v-prediction) objective, while subsequent steps focus on quality refinement under the standard DMD loss, with gradients from the DMD objective blocked at the first step. We term this approach Diversity-Preserved DMD (DP-DMD), which, despite its simplicity -- no perceptual backbone, no discriminator, no auxiliary networks, and no additional ground-truth images -- preserves sample diversity while maintaining visual quality on par with state-of-the-art methods in extensive text-to-image experiments.
PDF394February 8, 2026