AccVideo: Acelerando Modelos de Difusão de Vídeo com Conjunto de Dados Sintético
AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset
March 25, 2025
Autores: Haiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao
cs.AI
Resumo
Os modelos de difusão têm alcançado progressos notáveis no campo da geração de vídeos. No entanto, sua natureza iterativa de remoção de ruído exige um grande número de etapas de inferência para gerar um vídeo, o que é lento e computacionalmente caro. Neste artigo, começamos com uma análise detalhada dos desafios presentes nos métodos existentes de destilação de difusão e propomos um novo método eficiente, denominado AccVideo, para reduzir as etapas de inferência e acelerar os modelos de difusão de vídeo com um conjunto de dados sintético. Aproveitamos o modelo de difusão de vídeo pré-treinado para gerar múltiplas trajetórias válidas de remoção de ruído como nosso conjunto de dados sintético, o que elimina o uso de pontos de dados inúteis durante a destilação. Com base no conjunto de dados sintético, projetamos uma orientação de poucas etapas baseada em trajetórias que utiliza pontos de dados-chave das trajetórias de remoção de ruído para aprender o mapeamento de ruído para vídeo, permitindo a geração de vídeos em menos etapas. Além disso, como o conjunto de dados sintético captura a distribuição de dados em cada etapa de difusão, introduzimos uma estratégia de treinamento adversarial para alinhar a distribuição de saída do modelo estudante com a do nosso conjunto de dados sintético, melhorando assim a qualidade do vídeo. Experimentos extensivos demonstram que nosso modelo alcança uma melhoria de 8,5x na velocidade de geração em comparação com o modelo professor, mantendo um desempenho comparável. Em comparação com métodos anteriores de aceleração, nossa abordagem é capaz de gerar vídeos com maior qualidade e resolução, ou seja, 5 segundos, 720x1280, 24fps.
English
Diffusion models have achieved remarkable progress in the field of video
generation. However, their iterative denoising nature requires a large number
of inference steps to generate a video, which is slow and computationally
expensive. In this paper, we begin with a detailed analysis of the challenges
present in existing diffusion distillation methods and propose a novel
efficient method, namely AccVideo, to reduce the inference steps for
accelerating video diffusion models with synthetic dataset. We leverage the
pretrained video diffusion model to generate multiple valid denoising
trajectories as our synthetic dataset, which eliminates the use of useless data
points during distillation. Based on the synthetic dataset, we design a
trajectory-based few-step guidance that utilizes key data points from the
denoising trajectories to learn the noise-to-video mapping, enabling video
generation in fewer steps. Furthermore, since the synthetic dataset captures
the data distribution at each diffusion timestep, we introduce an adversarial
training strategy to align the output distribution of the student model with
that of our synthetic dataset, thereby enhancing the video quality. Extensive
experiments demonstrate that our model achieves 8.5x improvements in generation
speed compared to the teacher model while maintaining comparable performance.
Compared to previous accelerating methods, our approach is capable of
generating videos with higher quality and resolution, i.e., 5-seconds,
720x1280, 24fps.