DCM: Dual-Expert Consistentiemodel voor Efficiënte en Hoogwaardige Videogeneratie
DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation
June 3, 2025
Auteurs: Zhengyao Lv, Chenyang Si, Tianlin Pan, Zhaoxi Chen, Kwan-Yee K. Wong, Yu Qiao, Ziwei Liu
cs.AI
Samenvatting
Diffusiemodellen hebben opmerkelijke resultaten behaald in videosynthese, maar vereisen iteratieve denoisingsstappen, wat leidt tot aanzienlijke rekenkundige overhead. Consistentiemodellen hebben aanzienlijke vooruitgang geboekt in het versnellen van diffusiemodellen. Het direct toepassen ervan op videodiffusiemodellen resulteert echter vaak in een ernstige verslechtering van temporele consistentie en uiterlijke details. In dit artikel identificeren we, door de trainingsdynamiek van Consistentiemodellen te analyseren, een belangrijk conflict in de leerprocessen tijdens het distillatieproces: er is een significant verschil in de optimalisatiegradiënten en verliesbijdragen over verschillende tijdstappen. Dit verschil verhindert dat het gedistilleerde studentenmodel een optimale staat bereikt, wat leidt tot aangetaste temporele consistentie en verslechterde uiterlijke details. Om dit probleem aan te pakken, stellen we een parameter-efficiënt Dual-Expert Consistentiemodel (DCM) voor, waarbij een semantische expert zich richt op het leren van semantische lay-out en beweging, terwijl een detailexpert gespecialiseerd is in de verfijning van fijne details. Verder introduceren we Temporele Coherentieverlies om de bewegingsconsistentie voor de semantische expert te verbeteren en passen we GAN en Feature Matching Verlies toe om de synthesekwaliteit van de detailexpert te verbeteren. Onze aanpak bereikt state-of-the-art visuele kwaliteit met aanzienlijk verminderde samplingstappen, wat de effectiviteit van expertspecialisatie in videodiffusiemodeldistillatie aantoont. Onze code en modellen zijn beschikbaar op https://github.com/Vchitect/DCM{https://github.com/Vchitect/DCM}.
English
Diffusion Models have achieved remarkable results in video synthesis but
require iterative denoising steps, leading to substantial computational
overhead. Consistency Models have made significant progress in accelerating
diffusion models. However, directly applying them to video diffusion models
often results in severe degradation of temporal consistency and appearance
details. In this paper, by analyzing the training dynamics of Consistency
Models, we identify a key conflicting learning dynamics during the distillation
process: there is a significant discrepancy in the optimization gradients and
loss contributions across different timesteps. This discrepancy prevents the
distilled student model from achieving an optimal state, leading to compromised
temporal consistency and degraded appearance details. To address this issue, we
propose a parameter-efficient Dual-Expert Consistency Model~(DCM),
where a semantic expert focuses on learning semantic layout and motion, while a
detail expert specializes in fine detail refinement. Furthermore, we introduce
Temporal Coherence Loss to improve motion consistency for the semantic expert
and apply GAN and Feature Matching Loss to enhance the synthesis quality of the
detail expert.Our approach achieves state-of-the-art visual quality with
significantly reduced sampling steps, demonstrating the effectiveness of expert
specialization in video diffusion model distillation. Our code and models are
available at
https://github.com/Vchitect/DCM{https://github.com/Vchitect/DCM}.