ChatPaper.aiChatPaper

Distilación de Difusión a Gran Escala mediante Consistencia en Tiempo Continuo Regularizada por Puntajes

Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency

October 9, 2025
Autores: Kaiwen Zheng, Yuji Wang, Qianli Ma, Huayu Chen, Jintao Zhang, Yogesh Balaji, Jianfei Chen, Ming-Yu Liu, Jun Zhu, Qinsheng Zhang
cs.AI

Resumen

Este trabajo representa el primer esfuerzo para escalar la destilación de consistencia en tiempo continuo a modelos de difusión de imágenes y videos a nivel de aplicación general. Aunque el modelo de consistencia en tiempo continuo (sCM, por sus siglas en inglés) está fundamentado teóricamente y es empíricamente potente para acelerar la difusión a escala académica, su aplicabilidad a tareas de gran escala, como la generación de texto a imagen y video, sigue siendo incierta debido a los desafíos de infraestructura en el cálculo del producto Jacobiano-vector (JVP) y las limitaciones de los puntos de referencia de evaluación estándar. Primero desarrollamos un núcleo JVP compatible con paralelismo basado en FlashAttention-2, lo que permite el entrenamiento de sCM en modelos con más de 10 mil millones de parámetros y tareas de video de alta dimensionalidad. Nuestra investigación revela limitaciones fundamentales en la calidad de sCM para la generación de detalles finos, las cuales atribuimos a la acumulación de errores y a la naturaleza de "cobertura de modos" de su objetivo de divergencia hacia adelante. Para remediar esto, proponemos el modelo de consistencia en tiempo continuo regularizado por puntuación (rCM), que incorpora la destilación de puntuación como un regularizador de salto largo. Esta integración complementa sCM con la divergencia inversa de "búsqueda de modos", mejorando efectivamente la calidad visual mientras mantiene una alta diversidad en la generación. Validado en modelos de gran escala (Cosmos-Predict2, Wan2.1) de hasta 14 mil millones de parámetros y videos de 5 segundos, rCM iguala o supera al método de destilación de última generación DMD2 en métricas de calidad, ofreciendo ventajas notables en diversidad, todo ello sin ajustes de GAN o búsquedas extensivas de hiperparámetros. Los modelos destilados generan muestras de alta fidelidad en solo 1 a 4 pasos, acelerando el muestreo de difusión entre 15 y 50 veces. Estos resultados posicionan a rCM como un marco práctico y teóricamente fundamentado para avanzar en la destilación de difusión a gran escala.
English
This work represents the first effort to scale up continuous-time consistency distillation to general application-level image and video diffusion models. Although continuous-time consistency model (sCM) is theoretically principled and empirically powerful for accelerating academic-scale diffusion, its applicability to large-scale text-to-image and video tasks remains unclear due to infrastructure challenges in Jacobian-vector product (JVP) computation and the limitations of standard evaluation benchmarks. We first develop a parallelism-compatible FlashAttention-2 JVP kernel, enabling sCM training on models with over 10 billion parameters and high-dimensional video tasks. Our investigation reveals fundamental quality limitations of sCM in fine-detail generation, which we attribute to error accumulation and the "mode-covering" nature of its forward-divergence objective. To remedy this, we propose the score-regularized continuous-time consistency model (rCM), which incorporates score distillation as a long-skip regularizer. This integration complements sCM with the "mode-seeking" reverse divergence, effectively improving visual quality while maintaining high generation diversity. Validated on large-scale models (Cosmos-Predict2, Wan2.1) up to 14B parameters and 5-second videos, rCM matches or surpasses the state-of-the-art distillation method DMD2 on quality metrics while offering notable advantages in diversity, all without GAN tuning or extensive hyperparameter searches. The distilled models generate high-fidelity samples in only 1sim4 steps, accelerating diffusion sampling by 15timessim50times. These results position rCM as a practical and theoretically grounded framework for advancing large-scale diffusion distillation.
PDF72October 10, 2025