DCM : Modèle de Cohérence à Double Expert pour une Génération de Vidéos Efficace et de Haute Qualité
DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation
June 3, 2025
Auteurs: Zhengyao Lv, Chenyang Si, Tianlin Pan, Zhaoxi Chen, Kwan-Yee K. Wong, Yu Qiao, Ziwei Liu
cs.AI
Résumé
Les modèles de diffusion ont obtenu des résultats remarquables en synthèse vidéo, mais nécessitent des étapes itératives de débruitage, entraînant une surcharge computationnelle importante. Les modèles de cohérence ont fait des progrès significatifs pour accélérer les modèles de diffusion. Cependant, leur application directe aux modèles de diffusion vidéo entraîne souvent une dégradation sévère de la cohérence temporelle et des détails d'apparence. Dans cet article, en analysant la dynamique d'apprentissage des modèles de cohérence, nous identifions un conflit clé dans la dynamique d'apprentissage pendant le processus de distillation : il existe une divergence significative dans les gradients d'optimisation et les contributions de la perte à travers les différents pas de temps. Cette divergence empêche le modèle étudiant distillé d'atteindre un état optimal, conduisant à une cohérence temporelle compromise et à une dégradation des détails d'apparence. Pour résoudre ce problème, nous proposons un modèle de cohérence à double expert paramétriquement efficace (DCM), où un expert sémantique se concentre sur l'apprentissage de la disposition sémantique et du mouvement, tandis qu'un expert de détails se spécialise dans le raffinement des détails fins. De plus, nous introduisons une perte de cohérence temporelle pour améliorer la cohérence du mouvement pour l'expert sémantique et appliquons une perte GAN et de correspondance de caractéristiques pour améliorer la qualité de synthèse de l'expert de détails. Notre approche atteint une qualité visuelle de pointe avec un nombre d'étapes d'échantillonnage significativement réduit, démontrant l'efficacité de la spécialisation des experts dans la distillation des modèles de diffusion vidéo. Notre code et nos modèles sont disponibles à l'adresse https://github.com/Vchitect/DCM{https://github.com/Vchitect/DCM}.
English
Diffusion Models have achieved remarkable results in video synthesis but
require iterative denoising steps, leading to substantial computational
overhead. Consistency Models have made significant progress in accelerating
diffusion models. However, directly applying them to video diffusion models
often results in severe degradation of temporal consistency and appearance
details. In this paper, by analyzing the training dynamics of Consistency
Models, we identify a key conflicting learning dynamics during the distillation
process: there is a significant discrepancy in the optimization gradients and
loss contributions across different timesteps. This discrepancy prevents the
distilled student model from achieving an optimal state, leading to compromised
temporal consistency and degraded appearance details. To address this issue, we
propose a parameter-efficient Dual-Expert Consistency Model~(DCM),
where a semantic expert focuses on learning semantic layout and motion, while a
detail expert specializes in fine detail refinement. Furthermore, we introduce
Temporal Coherence Loss to improve motion consistency for the semantic expert
and apply GAN and Feature Matching Loss to enhance the synthesis quality of the
detail expert.Our approach achieves state-of-the-art visual quality with
significantly reduced sampling steps, demonstrating the effectiveness of expert
specialization in video diffusion model distillation. Our code and models are
available at
https://github.com/Vchitect/DCM{https://github.com/Vchitect/DCM}.