DCM: Dual-Expert-Konsistenzmodell für effiziente und hochwertige Videogenerierung
DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation
June 3, 2025
Autoren: Zhengyao Lv, Chenyang Si, Tianlin Pan, Zhaoxi Chen, Kwan-Yee K. Wong, Yu Qiao, Ziwei Liu
cs.AI
Zusammenfassung
Diffusionsmodelle haben bemerkenswerte Ergebnisse in der Videosynthese erzielt, erfordern jedoch iterative Denoising-Schritte, was zu einem erheblichen Rechenaufwand führt. Konsistenzmodelle haben bedeutende Fortschritte bei der Beschleunigung von Diffusionsmodellen gemacht. Die direkte Anwendung auf Video-Diffusionsmodelle führt jedoch oft zu einer erheblichen Verschlechterung der zeitlichen Konsistenz und der Erscheinungsdetails. In dieser Arbeit analysieren wir die Trainingsdynamik von Konsistenzmodellen und identifizieren einen zentralen Konflikt in der Lern dynamik während des Destillationsprozesses: Es gibt eine erhebliche Diskrepanz in den Optimierungsgradienten und den Verlustbeiträgen über verschiedene Zeitschritte hinweg. Diese Diskrepanz verhindert, dass das destillierte Schülermodell einen optimalen Zustand erreicht, was zu einer beeinträchtigten zeitlichen Konsistenz und einer Verschlechterung der Erscheinungsdetails führt. Um dieses Problem zu lösen, schlagen wir ein parameter effizientes Dual-Expert-Konsistenzmodell (DCM) vor, bei dem ein semantischer Experte sich auf das Lernen von semantischer Anordnung und Bewegung konzentriert, während ein Detail-Experte sich auf die Verfeinerung feiner Details spezialisiert. Darüber hinaus führen wir den Temporal Coherence Loss ein, um die Bewegungskonsistenz für den semantischen Experten zu verbessern, und wenden GAN- und Feature-Matching-Loss an, um die Synthesequalität des Detail-Experten zu steigern. Unser Ansatz erreicht eine erstklassige visuelle Qualität bei deutlich reduzierten Sampling-Schritten und demonstriert die Wirksamkeit der Experten-Spezialisierung in der Destillation von Video-Diffusionsmodellen. Unser Code und unsere Modelle sind verfügbar unter https://github.com/Vchitect/DCM{https://github.com/Vchitect/DCM}.
English
Diffusion Models have achieved remarkable results in video synthesis but
require iterative denoising steps, leading to substantial computational
overhead. Consistency Models have made significant progress in accelerating
diffusion models. However, directly applying them to video diffusion models
often results in severe degradation of temporal consistency and appearance
details. In this paper, by analyzing the training dynamics of Consistency
Models, we identify a key conflicting learning dynamics during the distillation
process: there is a significant discrepancy in the optimization gradients and
loss contributions across different timesteps. This discrepancy prevents the
distilled student model from achieving an optimal state, leading to compromised
temporal consistency and degraded appearance details. To address this issue, we
propose a parameter-efficient Dual-Expert Consistency Model~(DCM),
where a semantic expert focuses on learning semantic layout and motion, while a
detail expert specializes in fine detail refinement. Furthermore, we introduce
Temporal Coherence Loss to improve motion consistency for the semantic expert
and apply GAN and Feature Matching Loss to enhance the synthesis quality of the
detail expert.Our approach achieves state-of-the-art visual quality with
significantly reduced sampling steps, demonstrating the effectiveness of expert
specialization in video diffusion model distillation. Our code and models are
available at
https://github.com/Vchitect/DCM{https://github.com/Vchitect/DCM}.