Distillazione per Matching di Distribuzione con Conservazione della Diversità per la Sintesi Visiva Rapida

Abstract

La distillazione per allineamento di distribuzione (DMD) allinea un generatore multi-step con la sua controparte a pochi step per consentire una generazione di alta qualità con bassi costi computazionali inferenziali. Tuttavia, la DMD tende a soffrire di collasso modale, poiché la sua formulazione basata sulla KL inversa incoraggia intrinsecamente un comportamento di ricerca modale. I rimedi esistenti tipicamente si basano su regolarizzazioni percettive o avversarie, comportando così un sovraccarico computazionale sostanziale e instabilità nell'addestramento. In questo lavoro, proponiamo un framework di distillazione a ruoli separati che disaccoppia esplicitamente i ruoli degli step distillati: il primo step è dedicato a preservare la diversità dei campioni tramite un obiettivo di predizione del target (ad esempio, v-prediction), mentre gli step successivi si concentrano sul perfezionamento della qualità sotto la loss DMD standard, con i gradienti dall'obiettivo DMD bloccati al primo step. Denominiamo questo approccio DMD con Diversità Preservata (DP-DMD), che, nonostante la sua semplicità – nessun backbone percettivo, nessun discriminatore, nessuna rete ausiliaria e nessuna immagine di ground-truth aggiuntiva – preserva la diversità dei campioni mantenendo al contempo una qualità visiva pari a quella dei metodi allo stato dell'arte in estesi esperimenti di text-to-image.

English

Distribution matching distillation (DMD) aligns a multi-step generator with its few-step counterpart to enable high-quality generation under low inference cost. However, DMD tends to suffer from mode collapse, as its reverse-KL formulation inherently encourages mode-seeking behavior, for which existing remedies typically rely on perceptual or adversarial regularization, thereby incurring substantial computational overhead and training instability. In this work, we propose a role-separated distillation framework that explicitly disentangles the roles of distilled steps: the first step is dedicated to preserving sample diversity via a target-prediction (e.g., v-prediction) objective, while subsequent steps focus on quality refinement under the standard DMD loss, with gradients from the DMD objective blocked at the first step. We term this approach Diversity-Preserved DMD (DP-DMD), which, despite its simplicity -- no perceptual backbone, no discriminator, no auxiliary networks, and no additional ground-truth images -- preserves sample diversity while maintaining visual quality on par with state-of-the-art methods in extensive text-to-image experiments.

Distillazione per Matching di Distribuzione con Conservazione della Diversità per la Sintesi Visiva Rapida

Diversity-Preserved Distribution Matching Distillation for Fast Visual Synthesis

Abstract

Support