ChatPaper.aiChatPaper

AccVideo: Aceleración de Modelos de Difusión de Vídeo mediante Conjuntos de Datos Sintéticos

AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset

March 25, 2025
Autores: Haiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao
cs.AI

Resumen

Los modelos de difusión han logrado avances notables en el campo de la generación de videos. Sin embargo, su naturaleza iterativa de eliminación de ruido requiere un gran número de pasos de inferencia para generar un video, lo que resulta lento y computacionalmente costoso. En este artículo, comenzamos con un análisis detallado de los desafíos presentes en los métodos existentes de destilación de difusión y proponemos un método novedoso y eficiente, denominado AccVideo, para reducir los pasos de inferencia y acelerar los modelos de difusión de videos utilizando un conjunto de datos sintético. Aprovechamos el modelo de difusión de videos preentrenado para generar múltiples trayectorias válidas de eliminación de ruido como nuestro conjunto de datos sintético, lo que elimina el uso de puntos de datos inútiles durante la destilación. Basándonos en el conjunto de datos sintético, diseñamos una guía de pocos pasos basada en trayectorias que utiliza puntos clave de las trayectorias de eliminación de ruido para aprender la asignación de ruido a video, permitiendo la generación de videos en menos pasos. Además, dado que el conjunto de datos sintético captura la distribución de datos en cada paso de difusión, introducimos una estrategia de entrenamiento adversarial para alinear la distribución de salida del modelo estudiante con la de nuestro conjunto de datos sintético, mejorando así la calidad del video. Experimentos extensos demuestran que nuestro modelo logra una mejora de 8.5x en la velocidad de generación en comparación con el modelo maestro, manteniendo un rendimiento comparable. En comparación con métodos anteriores de aceleración, nuestro enfoque es capaz de generar videos con mayor calidad y resolución, es decir, 5 segundos, 720x1280, 24 fps.
English
Diffusion models have achieved remarkable progress in the field of video generation. However, their iterative denoising nature requires a large number of inference steps to generate a video, which is slow and computationally expensive. In this paper, we begin with a detailed analysis of the challenges present in existing diffusion distillation methods and propose a novel efficient method, namely AccVideo, to reduce the inference steps for accelerating video diffusion models with synthetic dataset. We leverage the pretrained video diffusion model to generate multiple valid denoising trajectories as our synthetic dataset, which eliminates the use of useless data points during distillation. Based on the synthetic dataset, we design a trajectory-based few-step guidance that utilizes key data points from the denoising trajectories to learn the noise-to-video mapping, enabling video generation in fewer steps. Furthermore, since the synthetic dataset captures the data distribution at each diffusion timestep, we introduce an adversarial training strategy to align the output distribution of the student model with that of our synthetic dataset, thereby enhancing the video quality. Extensive experiments demonstrate that our model achieves 8.5x improvements in generation speed compared to the teacher model while maintaining comparable performance. Compared to previous accelerating methods, our approach is capable of generating videos with higher quality and resolution, i.e., 5-seconds, 720x1280, 24fps.

Summary

AI-Generated Summary

PDF102March 27, 2025