Appariement de distribution en temps continu pour la distillation de diffusion en peu d'étapes
Continuous-Time Distribution Matching for Few-Step Diffusion Distillation
May 7, 2026
Auteurs: Tao Liu, Hao Yan, Mengting Chen, Taihang Hu, Zhengrong Yue, Zihao Pan, Jinsong Lan, Xiaoyong Zhu, Ming-Ming Cheng, Bo Zheng, Yaxing Wang
cs.AI
Résumé
La distillation en une étape est devenue une technique phare pour accélérer les modèles de diffusion, parmi lesquels la Distillation par Appariement de Distributions (DMD) et la Distillation de Cohérence sont deux paradigmes représentatifs. Alors que les méthodes de cohérence imposent une auto-consistance le long de la trajectoire complète de l'EDOP-FP pour la guider vers la variété des données propres, la DMD standard repose sur une supervision éparse à quelques pas de temps discrets prédéfinis. Cette formulation discrète restreinte dans le temps et la nature mode-seeking de la divergence KL inverse tendent à présenter des artefacts visuels et des résultats excessivement lissés, nécessitant souvent des modules auxiliaires complexes – tels que des GAN ou des modèles de récompense – pour restaurer la fidélité visuelle. Dans ce travail, nous introduisons l'Appariement de Distributions en Temps Continu (CDM), migrant pour la première fois le cadre DMD d'un ancrage discret vers une optimisation continue. CDM y parvient grâce à deux conceptions en temps continu. Premièrement, nous remplaçons l'échelle discrète fixe par une échelle continue dynamique de longueur aléatoire, de sorte que l'appariement des distributions soit appliqué en des points arbitraires le long des trajectoires d'échantillonnage plutôt qu'à seulement quelques ancrages fixes. Deuxièmement, nous proposons un objectif d'alignement en temps continu qui effectue un appariement actif hors trajectoire sur des latents extrapolés via le champ de vélocité de l'étudiant, améliorant la généralisation et préservant les détails visuels fins. Des expériences approfondies sur différentes architectures, incluant SD3-Medium et Longcat-Image, démontrent que CDM offre une fidélité visuelle très compétitive pour la génération d'images en peu d'étapes, sans recourir à des objectifs auxiliaires complexes. Le code est disponible à l'adresse https://github.com/byliutao/cdm.
English
Step distillation has become a leading technique for accelerating diffusion models, among which Distribution Matching Distillation (DMD) and Consistency Distillation are two representative paradigms. While consistency methods enforce self-consistency along the full PF-ODE trajectory to steer it toward the clean data manifold, vanilla DMD relies on sparse supervision at a few predefined discrete timesteps. This restricted discrete-time formulation and mode-seeking nature of the reverse KL divergence tends to exhibit visual artifacts and over-smoothed outputs, often necessitating complex auxiliary modules -- such as GANs or reward models -- to restore visual fidelity. In this work, we introduce Continuous-Time Distribution Matching (CDM), migrating the DMD framework from discrete anchoring to continuous optimization for the first time. CDM achieves this through two continuous-time designs. First, we replace the fixed discrete schedule with a dynamic continuous schedule of random length, so that distribution matching is enforced at arbitrary points along sampling trajectories rather than only at a few fixed anchors. Second, we propose a continuous-time alignment objective that performs active off-trajectory matching on latents extrapolated via the student's velocity field, improving generalization and preserving fine visual details. Extensive experiments on different architectures, including SD3-Medium and Longcat-Image, demonstrate that CDM provides highly competitive visual fidelity for few-step image generation without relying on complex auxiliary objectives. Code is available at https://github.com/byliutao/cdm.