DCM: Modello di Consistenza a Doppio Esperto per la Generazione Efficiente e di Alta Qualità di Video
DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation
June 3, 2025
Autori: Zhengyao Lv, Chenyang Si, Tianlin Pan, Zhaoxi Chen, Kwan-Yee K. Wong, Yu Qiao, Ziwei Liu
cs.AI
Abstract
I Modelli di Diffusione hanno ottenuto risultati notevoli nella sintesi video, ma richiedono passaggi iterativi di denoising, portando a un notevole sovraccarico computazionale. I Modelli di Consistenza hanno fatto progressi significativi nell'accelerazione dei modelli di diffusione. Tuttavia, applicarli direttamente ai modelli di diffusione video spesso comporta un grave deterioramento della consistenza temporale e dei dettagli visivi. In questo articolo, analizzando le dinamiche di addestramento dei Modelli di Consistenza, identifichiamo un conflitto chiave nelle dinamiche di apprendimento durante il processo di distillazione: c'è una significativa discrepanza nei gradienti di ottimizzazione e nei contributi delle perdite tra i diversi passaggi temporali. Questa discrepanza impedisce al modello studente distillato di raggiungere uno stato ottimale, portando a una consistenza temporale compromessa e a dettagli visivi degradati. Per affrontare questo problema, proponiamo un Modello di Consistenza Dual-Expert~(DCM) efficiente in termini di parametri, in cui un esperto semantico si concentra sull'apprendimento del layout semantico e del movimento, mentre un esperto di dettagli si specializza nel perfezionamento dei dettagli fini. Inoltre, introduciamo la Perdita di Coerenza Temporale per migliorare la consistenza del movimento per l'esperto semantico e applichiamo la Perdita GAN e la Perdita di Corrispondenza delle Caratteristiche per migliorare la qualità della sintesi dell'esperto di dettagli. Il nostro approccio raggiunge una qualità visiva all'avanguardia con un numero significativamente ridotto di passaggi di campionamento, dimostrando l'efficacia della specializzazione degli esperti nella distillazione dei modelli di diffusione video. Il nostro codice e i nostri modelli sono disponibili su https://github.com/Vchitect/DCM{https://github.com/Vchitect/DCM}.
English
Diffusion Models have achieved remarkable results in video synthesis but
require iterative denoising steps, leading to substantial computational
overhead. Consistency Models have made significant progress in accelerating
diffusion models. However, directly applying them to video diffusion models
often results in severe degradation of temporal consistency and appearance
details. In this paper, by analyzing the training dynamics of Consistency
Models, we identify a key conflicting learning dynamics during the distillation
process: there is a significant discrepancy in the optimization gradients and
loss contributions across different timesteps. This discrepancy prevents the
distilled student model from achieving an optimal state, leading to compromised
temporal consistency and degraded appearance details. To address this issue, we
propose a parameter-efficient Dual-Expert Consistency Model~(DCM),
where a semantic expert focuses on learning semantic layout and motion, while a
detail expert specializes in fine detail refinement. Furthermore, we introduce
Temporal Coherence Loss to improve motion consistency for the semantic expert
and apply GAN and Feature Matching Loss to enhance the synthesis quality of the
detail expert.Our approach achieves state-of-the-art visual quality with
significantly reduced sampling steps, demonstrating the effectiveness of expert
specialization in video diffusion model distillation. Our code and models are
available at
https://github.com/Vchitect/DCM{https://github.com/Vchitect/DCM}.