ChatPaper.aiChatPaper

DCM: Modelo de Consistencia de Doble Experto para la Generación Eficiente y de Alta Calidad de Videos

DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation

June 3, 2025
Autores: Zhengyao Lv, Chenyang Si, Tianlin Pan, Zhaoxi Chen, Kwan-Yee K. Wong, Yu Qiao, Ziwei Liu
cs.AI

Resumen

Los Modelos de Difusión han logrado resultados notables en la síntesis de video, pero requieren pasos iterativos de eliminación de ruido, lo que conlleva un sobrecosto computacional significativo. Los Modelos de Consistencia han hecho avances importantes en la aceleración de los modelos de difusión. Sin embargo, su aplicación directa a los modelos de difusión de video a menudo resulta en una degradación severa de la consistencia temporal y los detalles de apariencia. En este trabajo, al analizar la dinámica de entrenamiento de los Modelos de Consistencia, identificamos un conflicto clave en la dinámica de aprendizaje durante el proceso de destilación: existe una discrepancia significativa en los gradientes de optimización y las contribuciones de pérdida en diferentes pasos de tiempo. Esta discrepancia impide que el modelo estudiante destilado alcance un estado óptimo, lo que lleva a una consistencia temporal comprometida y detalles de apariencia degradados. Para abordar este problema, proponemos un Modelo de Consistencia de Doble Experto (DCM) eficiente en parámetros, donde un experto semántico se enfoca en aprender el diseño semántico y el movimiento, mientras que un experto en detalles se especializa en el refinamiento de detalles finos. Además, introducimos la Pérdida de Coherencia Temporal para mejorar la consistencia del movimiento en el experto semántico y aplicamos Pérdida GAN y Pérdida de Coincidencia de Características para mejorar la calidad de síntesis del experto en detalles. Nuestro enfoque logra una calidad visual de vanguardia con un número significativamente reducido de pasos de muestreo, demostrando la efectividad de la especialización de expertos en la destilación de modelos de difusión de video. Nuestro código y modelos están disponibles en https://github.com/Vchitect/DCM{https://github.com/Vchitect/DCM}.
English
Diffusion Models have achieved remarkable results in video synthesis but require iterative denoising steps, leading to substantial computational overhead. Consistency Models have made significant progress in accelerating diffusion models. However, directly applying them to video diffusion models often results in severe degradation of temporal consistency and appearance details. In this paper, by analyzing the training dynamics of Consistency Models, we identify a key conflicting learning dynamics during the distillation process: there is a significant discrepancy in the optimization gradients and loss contributions across different timesteps. This discrepancy prevents the distilled student model from achieving an optimal state, leading to compromised temporal consistency and degraded appearance details. To address this issue, we propose a parameter-efficient Dual-Expert Consistency Model~(DCM), where a semantic expert focuses on learning semantic layout and motion, while a detail expert specializes in fine detail refinement. Furthermore, we introduce Temporal Coherence Loss to improve motion consistency for the semantic expert and apply GAN and Feature Matching Loss to enhance the synthesis quality of the detail expert.Our approach achieves state-of-the-art visual quality with significantly reduced sampling steps, demonstrating the effectiveness of expert specialization in video diffusion model distillation. Our code and models are available at https://github.com/Vchitect/DCM{https://github.com/Vchitect/DCM}.
PDF142June 4, 2025