Großskalige Diffusionsdestillation durch Score-regulierte Kontinuierliche-Zeit-Konsistenz
Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency
October 9, 2025
papers.authors: Kaiwen Zheng, Yuji Wang, Qianli Ma, Huayu Chen, Jintao Zhang, Yogesh Balaji, Jianfei Chen, Ming-Yu Liu, Jun Zhu, Qinsheng Zhang
cs.AI
papers.abstract
Diese Arbeit stellt den ersten Versuch dar, die Konsistenzdestillation in kontinuierlicher Zeit auf allgemeine Anwendungsmodelle für Bild- und Videodiffusion zu skalieren. Obwohl das kontinuierliche Konsistenzmodell (sCM) theoretisch fundiert und empirisch leistungsstark ist, um die Diffusion auf akademischer Ebene zu beschleunigen, bleibt seine Anwendbarkeit auf groß angelegte Text-zu-Bild- und Videoaufgaben aufgrund von Infrastrukturherausforderungen bei der Berechnung von Jacobi-Vektor-Produkten (JVP) und den Einschränkungen standardisierter Evaluierungsbenchmarks unklar. Wir entwickeln zunächst einen parallelitätskompatiblen FlashAttention-2-JVP-Kernel, der das Training von sCM auf Modellen mit über 10 Milliarden Parametern und hochdimensionalen Videoaufgaben ermöglicht. Unsere Untersuchung zeigt grundlegende Qualitätseinschränkungen von sCM bei der Erzeugung feiner Details, die wir auf Fehlerakkumulation und den „modusabdeckenden“ Charakter seines Vorwärts-Divergenz-Ziels zurückführen. Um dies zu beheben, schlagen wir das score-regularisierte kontinuierliche Konsistenzmodell (rCM) vor, das Score-Destillation als Langsprung-Regularisator integriert. Diese Integration ergänzt sCM mit der „modussuchenden“ Rückwärts-Divergenz und verbessert effektiv die visuelle Qualität bei gleichzeitiger Beibehaltung einer hohen Generierungsvielfalt. Validiert an groß angelegten Modellen (Cosmos-Predict2, Wan2.1) mit bis zu 14 Milliarden Parametern und 5-Sekunden-Videos, erreicht oder übertrifft rCM die state-of-the-art Destillationsmethode DMD2 in Qualitätsmetriken, während es bemerkenswerte Vorteile in der Vielfalt bietet – und dies ohne GAN-Tuning oder umfangreiche Hyperparameter-Suchen. Die destillierten Modelle erzeugen hochwertige Proben in nur 1–4 Schritten und beschleunigen die Diffusionsabtastung um das 15- bis 50-fache. Diese Ergebnisse positionieren rCM als praktisches und theoretisch fundiertes Framework zur Weiterentwicklung der groß angelegten Diffusionsdestillation.
English
This work represents the first effort to scale up continuous-time consistency
distillation to general application-level image and video diffusion models.
Although continuous-time consistency model (sCM) is theoretically principled
and empirically powerful for accelerating academic-scale diffusion, its
applicability to large-scale text-to-image and video tasks remains unclear due
to infrastructure challenges in Jacobian-vector product (JVP) computation and
the limitations of standard evaluation benchmarks. We first develop a
parallelism-compatible FlashAttention-2 JVP kernel, enabling sCM training on
models with over 10 billion parameters and high-dimensional video tasks. Our
investigation reveals fundamental quality limitations of sCM in fine-detail
generation, which we attribute to error accumulation and the "mode-covering"
nature of its forward-divergence objective. To remedy this, we propose the
score-regularized continuous-time consistency model (rCM), which incorporates
score distillation as a long-skip regularizer. This integration complements sCM
with the "mode-seeking" reverse divergence, effectively improving visual
quality while maintaining high generation diversity. Validated on large-scale
models (Cosmos-Predict2, Wan2.1) up to 14B parameters and 5-second videos, rCM
matches or surpasses the state-of-the-art distillation method DMD2 on quality
metrics while offering notable advantages in diversity, all without GAN tuning
or extensive hyperparameter searches. The distilled models generate
high-fidelity samples in only 1sim4 steps, accelerating diffusion sampling
by 15timessim50times. These results position rCM as a practical and
theoretically grounded framework for advancing large-scale diffusion
distillation.