ChatPaper.aiChatPaper

Diffusione su larga scala tramite distillazione mediante consistenza a tempo continuo regolarizzata con punteggio

Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency

October 9, 2025
Autori: Kaiwen Zheng, Yuji Wang, Qianli Ma, Huayu Chen, Jintao Zhang, Yogesh Balaji, Jianfei Chen, Ming-Yu Liu, Jun Zhu, Qinsheng Zhang
cs.AI

Abstract

Questo lavoro rappresenta il primo tentativo di scalare la distillazione della consistenza in tempo continuo per modelli di diffusione di immagini e video a livello applicativo. Sebbene il modello di consistenza in tempo continuo (sCM) sia teoricamente fondato e empiricamente potente per accelerare la diffusione su scala accademica, la sua applicabilità a compiti su larga scala di generazione di immagini e video da testo rimane incerta a causa delle sfide infrastrutturali nel calcolo del prodotto Jacobiano-vettore (JVP) e delle limitazioni dei benchmark di valutazione standard. Inizialmente, sviluppiamo un kernel JVP compatibile con il parallelismo basato su FlashAttention-2, che consente l'addestramento di sCM su modelli con oltre 10 miliardi di parametri e compiti video ad alta dimensionalità. La nostra indagine rivela limitazioni fondamentali nella qualità di sCM nella generazione di dettagli fini, che attribuiamo all'accumulo di errori e alla natura "mode-covering" del suo obiettivo di divergenza in avanti. Per rimediare a ciò, proponiamo il modello di consistenza in tempo continuo regolarizzato dal punteggio (rCM), che incorpora la distillazione del punteggio come regolarizzatore a salto lungo. Questa integrazione completa sCM con la divergenza inversa "mode-seeking", migliorando efficacemente la qualità visiva mantenendo un'elevata diversità nella generazione. Validato su modelli su larga scala (Cosmos-Predict2, Wan2.1) fino a 14 miliardi di parametri e video di 5 secondi, rCM eguaglia o supera il metodo di distillazione all'avanguardia DMD2 nelle metriche di qualità, offrendo notevoli vantaggi in termini di diversità, tutto senza sintonizzazione GAN o ampie ricerche di iperparametri. I modelli distillati generano campioni ad alta fedeltà in soli 1-4 passi, accelerando il campionamento della diffusione di 15-50 volte. Questi risultati posizionano rCM come un framework pratico e teoricamente fondato per avanzare la distillazione della diffusione su larga scala.
English
This work represents the first effort to scale up continuous-time consistency distillation to general application-level image and video diffusion models. Although continuous-time consistency model (sCM) is theoretically principled and empirically powerful for accelerating academic-scale diffusion, its applicability to large-scale text-to-image and video tasks remains unclear due to infrastructure challenges in Jacobian-vector product (JVP) computation and the limitations of standard evaluation benchmarks. We first develop a parallelism-compatible FlashAttention-2 JVP kernel, enabling sCM training on models with over 10 billion parameters and high-dimensional video tasks. Our investigation reveals fundamental quality limitations of sCM in fine-detail generation, which we attribute to error accumulation and the "mode-covering" nature of its forward-divergence objective. To remedy this, we propose the score-regularized continuous-time consistency model (rCM), which incorporates score distillation as a long-skip regularizer. This integration complements sCM with the "mode-seeking" reverse divergence, effectively improving visual quality while maintaining high generation diversity. Validated on large-scale models (Cosmos-Predict2, Wan2.1) up to 14B parameters and 5-second videos, rCM matches or surpasses the state-of-the-art distillation method DMD2 on quality metrics while offering notable advantages in diversity, all without GAN tuning or extensive hyperparameter searches. The distilled models generate high-fidelity samples in only 1sim4 steps, accelerating diffusion sampling by 15timessim50times. These results position rCM as a practical and theoretically grounded framework for advancing large-scale diffusion distillation.
PDF82October 10, 2025