DCM: Модель согласованности двух экспертов для эффективного и качественного создания видео
DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation
June 3, 2025
Авторы: Zhengyao Lv, Chenyang Si, Tianlin Pan, Zhaoxi Chen, Kwan-Yee K. Wong, Yu Qiao, Ziwei Liu
cs.AI
Аннотация
Диффузионные модели достигли впечатляющих результатов в синтезе видео, но требуют итеративных шагов денойзинга, что приводит к значительным вычислительным затратам. Модели согласованности (Consistency Models) сделали существенный прогресс в ускорении диффузионных моделей. Однако их прямое применение к видео-диффузионным моделям часто приводит к серьезному ухудшению временной согласованности и деталей внешнего вида. В данной работе, анализируя динамику обучения моделей согласованности, мы выявляем ключевой конфликт в процессе дистилляции: существует значительное расхождение в градиентах оптимизации и вкладах в потери на разных временных шагах. Это расхождение препятствует достижению оптимального состояния дистиллированной модели-ученика, что приводит к ухудшению временной согласованности и деталей. Для решения этой проблемы мы предлагаем параметрически эффективную модель согласованности с двумя экспертами (Dual-Expert Consistency Model, DCM), где семантический эксперт сосредоточен на изучении семантической структуры и движения, а эксперт по деталям специализируется на тонкой доработке деталей. Кроме того, мы вводим потерю временной согласованности (Temporal Coherence Loss) для улучшения согласованности движения у семантического эксперта и применяем потери GAN и Feature Matching Loss для повышения качества синтеза у эксперта по деталям. Наш подход достигает наилучшего визуального качества при значительно сокращенном количестве шагов выборки, демонстрируя эффективность специализации экспертов в дистилляции видео-диффузионных моделей. Наш код и модели доступны по адресу https://github.com/Vchitect/DCM.
English
Diffusion Models have achieved remarkable results in video synthesis but
require iterative denoising steps, leading to substantial computational
overhead. Consistency Models have made significant progress in accelerating
diffusion models. However, directly applying them to video diffusion models
often results in severe degradation of temporal consistency and appearance
details. In this paper, by analyzing the training dynamics of Consistency
Models, we identify a key conflicting learning dynamics during the distillation
process: there is a significant discrepancy in the optimization gradients and
loss contributions across different timesteps. This discrepancy prevents the
distilled student model from achieving an optimal state, leading to compromised
temporal consistency and degraded appearance details. To address this issue, we
propose a parameter-efficient Dual-Expert Consistency Model~(DCM),
where a semantic expert focuses on learning semantic layout and motion, while a
detail expert specializes in fine detail refinement. Furthermore, we introduce
Temporal Coherence Loss to improve motion consistency for the semantic expert
and apply GAN and Feature Matching Loss to enhance the synthesis quality of the
detail expert.Our approach achieves state-of-the-art visual quality with
significantly reduced sampling steps, demonstrating the effectiveness of expert
specialization in video diffusion model distillation. Our code and models are
available at
https://github.com/Vchitect/DCM{https://github.com/Vchitect/DCM}.