ChatPaper.aiChatPaper

DCM: 효율적이고 고품질의 비디오 생성을 위한 이중 전문가 일관성 모델

DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation

June 3, 2025
저자: Zhengyao Lv, Chenyang Si, Tianlin Pan, Zhaoxi Chen, Kwan-Yee K. Wong, Yu Qiao, Ziwei Liu
cs.AI

초록

디퓨전 모델은 비디오 합성 분야에서 뛰어난 성과를 거두었지만, 반복적인 노이즈 제거 단계가 필요하여 상당한 계산 비용이 발생합니다. 컨시스턴시 모델은 디퓨전 모델의 가속화에 있어 큰 진전을 이루었습니다. 그러나 이를 비디오 디퓨전 모델에 직접 적용할 경우, 시간적 일관성과 외관 디테일이 심각하게 저하되는 문제가 발생합니다. 본 논문에서는 컨시스턴시 모델의 학습 동역학을 분석함으로써, 증류 과정에서 발생하는 주요 학습 동역학적 충돌을 확인했습니다: 서로 다른 시간 단계에서 최적화 그래디언트와 손실 기여도 간에 상당한 차이가 존재합니다. 이러한 차이는 증류된 학생 모델이 최적의 상태에 도달하는 것을 방해하여, 시간적 일관성이 손상되고 외관 디테일이 저하되는 결과를 초래합니다. 이 문제를 해결하기 위해, 우리는 파라미터 효율적인 듀얼-전문가 컨시스턴시 모델(DCM)을 제안합니다. 여기서 시맨틱 전문가는 시맨틱 레이아웃과 모션 학습에 집중하고, 디테일 전문가는 미세한 디테일 정제에 특화됩니다. 더 나아가, 우리는 시맨틱 전문가의 모션 일관성을 개선하기 위해 시간적 일관성 손실(Temporal Coherence Loss)을 도입하고, 디테일 전문가의 합성 품질을 향상시키기 위해 GAN 및 특징 매칭 손실(Feature Matching Loss)을 적용합니다. 우리의 접근 방식은 샘플링 단계를 크게 줄이면서도 최첨단 시각적 품질을 달성하여, 비디오 디퓨전 모델 증류에서 전문가 특화의 효과를 입증합니다. 우리의 코드와 모델은 https://github.com/Vchitect/DCM에서 확인할 수 있습니다.
English
Diffusion Models have achieved remarkable results in video synthesis but require iterative denoising steps, leading to substantial computational overhead. Consistency Models have made significant progress in accelerating diffusion models. However, directly applying them to video diffusion models often results in severe degradation of temporal consistency and appearance details. In this paper, by analyzing the training dynamics of Consistency Models, we identify a key conflicting learning dynamics during the distillation process: there is a significant discrepancy in the optimization gradients and loss contributions across different timesteps. This discrepancy prevents the distilled student model from achieving an optimal state, leading to compromised temporal consistency and degraded appearance details. To address this issue, we propose a parameter-efficient Dual-Expert Consistency Model~(DCM), where a semantic expert focuses on learning semantic layout and motion, while a detail expert specializes in fine detail refinement. Furthermore, we introduce Temporal Coherence Loss to improve motion consistency for the semantic expert and apply GAN and Feature Matching Loss to enhance the synthesis quality of the detail expert.Our approach achieves state-of-the-art visual quality with significantly reduced sampling steps, demonstrating the effectiveness of expert specialization in video diffusion model distillation. Our code and models are available at https://github.com/Vchitect/DCM{https://github.com/Vchitect/DCM}.
PDF142June 4, 2025