Diffusion à Grande Échelle par Distillation via Consistance en Temps Continu Régularisée par Score
Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency
October 9, 2025
papers.authors: Kaiwen Zheng, Yuji Wang, Qianli Ma, Huayu Chen, Jintao Zhang, Yogesh Balaji, Jianfei Chen, Ming-Yu Liu, Jun Zhu, Qinsheng Zhang
cs.AI
papers.abstract
Ce travail représente la première tentative de mise à l'échelle de la distillation de cohérence en temps continu pour des modèles de diffusion d'images et de vidéos à l'échelle applicative. Bien que le modèle de cohérence en temps continu (sCM) soit théoriquement fondé et empiriquement puissant pour accélérer la diffusion à l'échelle académique, son applicabilité aux tâches de génération d'images et de vidéos à grande échelle reste incertaine en raison des défis infrastructurels liés au calcul des produits Jacobien-vecteur (JVP) et des limitations des benchmarks d'évaluation standards. Nous développons d'abord un noyau JVP compatible avec le parallélisme basé sur FlashAttention-2, permettant l'entraînement de sCM sur des modèles de plus de 10 milliards de paramètres et des tâches vidéo de haute dimension. Notre étude révèle des limitations fondamentales de sCM dans la génération de détails fins, que nous attribuons à l'accumulation d'erreurs et à la nature "mode-couvrante" de son objectif de divergence avant. Pour y remédier, nous proposons le modèle de cohérence en temps continu régularisé par score (rCM), qui intègre la distillation de score comme régularisateur à saut long. Cette intégration complète sCM avec la divergence inverse "mode-recherchante", améliorant efficacement la qualité visuelle tout en maintenant une grande diversité de génération. Validé sur des modèles à grande échelle (Cosmos-Predict2, Wan2.1) allant jusqu'à 14 milliards de paramètres et des vidéos de 5 secondes, rCM égale ou dépasse la méthode de distillation de pointe DMD2 sur les métriques de qualité tout en offrant des avantages notables en termes de diversité, le tout sans réglage GAN ou recherche extensive d'hyperparamètres. Les modèles distillés génèrent des échantillons de haute fidélité en seulement 1 à 4 étapes, accélérant l'échantillonnage par diffusion de 15 à 50 fois. Ces résultats positionnent rCM comme un cadre pratique et théoriquement fondé pour faire progresser la distillation de diffusion à grande échelle.
English
This work represents the first effort to scale up continuous-time consistency
distillation to general application-level image and video diffusion models.
Although continuous-time consistency model (sCM) is theoretically principled
and empirically powerful for accelerating academic-scale diffusion, its
applicability to large-scale text-to-image and video tasks remains unclear due
to infrastructure challenges in Jacobian-vector product (JVP) computation and
the limitations of standard evaluation benchmarks. We first develop a
parallelism-compatible FlashAttention-2 JVP kernel, enabling sCM training on
models with over 10 billion parameters and high-dimensional video tasks. Our
investigation reveals fundamental quality limitations of sCM in fine-detail
generation, which we attribute to error accumulation and the "mode-covering"
nature of its forward-divergence objective. To remedy this, we propose the
score-regularized continuous-time consistency model (rCM), which incorporates
score distillation as a long-skip regularizer. This integration complements sCM
with the "mode-seeking" reverse divergence, effectively improving visual
quality while maintaining high generation diversity. Validated on large-scale
models (Cosmos-Predict2, Wan2.1) up to 14B parameters and 5-second videos, rCM
matches or surpasses the state-of-the-art distillation method DMD2 on quality
metrics while offering notable advantages in diversity, all without GAN tuning
or extensive hyperparameter searches. The distilled models generate
high-fidelity samples in only 1sim4 steps, accelerating diffusion sampling
by 15timessim50times. These results position rCM as a practical and
theoretically grounded framework for advancing large-scale diffusion
distillation.