DCM: Modelo de Consistência de Dupla Expertise para Geração Eficiente e de Alta Qualidade de Vídeos
DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation
June 3, 2025
Autores: Zhengyao Lv, Chenyang Si, Tianlin Pan, Zhaoxi Chen, Kwan-Yee K. Wong, Yu Qiao, Ziwei Liu
cs.AI
Resumo
Os Modelos de Difusão têm alcançado resultados notáveis na síntese de vídeo, mas exigem etapas iterativas de remoção de ruído, resultando em uma sobrecarga computacional significativa. Os Modelos de Consistência têm feito progressos importantes na aceleração dos modelos de difusão. No entanto, aplicá-los diretamente aos modelos de difusão de vídeo frequentemente resulta em uma degradação severa da consistência temporal e dos detalhes de aparência. Neste artigo, ao analisar a dinâmica de treinamento dos Modelos de Consistência, identificamos um conflito fundamental na dinâmica de aprendizado durante o processo de destilação: há uma discrepância significativa nos gradientes de otimização e nas contribuições de perda em diferentes intervalos de tempo. Essa discrepância impede que o modelo estudante destilado atinja um estado ideal, levando a uma consistência temporal comprometida e a detalhes de aparência degradados. Para resolver esse problema, propomos um Modelo de Consistência de Duplo Especialista (DCM) eficiente em termos de parâmetros, onde um especialista semântico se concentra em aprender o layout semântico e o movimento, enquanto um especialista em detalhes se dedica ao refinamento de detalhes finos. Além disso, introduzimos a Perda de Coerência Temporal para melhorar a consistência de movimento do especialista semântico e aplicamos a Perda GAN e a Perda de Correspondência de Características para aprimorar a qualidade de síntese do especialista em detalhes. Nossa abordagem alcança a melhor qualidade visual com um número significativamente reduzido de etapas de amostragem, demonstrando a eficácia da especialização de especialistas na destilação de modelos de difusão de vídeo. Nosso código e modelos estão disponíveis em https://github.com/Vchitect/DCM{https://github.com/Vchitect/DCM}.
English
Diffusion Models have achieved remarkable results in video synthesis but
require iterative denoising steps, leading to substantial computational
overhead. Consistency Models have made significant progress in accelerating
diffusion models. However, directly applying them to video diffusion models
often results in severe degradation of temporal consistency and appearance
details. In this paper, by analyzing the training dynamics of Consistency
Models, we identify a key conflicting learning dynamics during the distillation
process: there is a significant discrepancy in the optimization gradients and
loss contributions across different timesteps. This discrepancy prevents the
distilled student model from achieving an optimal state, leading to compromised
temporal consistency and degraded appearance details. To address this issue, we
propose a parameter-efficient Dual-Expert Consistency Model~(DCM),
where a semantic expert focuses on learning semantic layout and motion, while a
detail expert specializes in fine detail refinement. Furthermore, we introduce
Temporal Coherence Loss to improve motion consistency for the semantic expert
and apply GAN and Feature Matching Loss to enhance the synthesis quality of the
detail expert.Our approach achieves state-of-the-art visual quality with
significantly reduced sampling steps, demonstrating the effectiveness of expert
specialization in video diffusion model distillation. Our code and models are
available at
https://github.com/Vchitect/DCM{https://github.com/Vchitect/DCM}.