AccVideo : Accélération des modèles de diffusion vidéo grâce à un ensemble de données synthétiques
AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset
March 25, 2025
Auteurs: Haiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao
cs.AI
Résumé
Les modèles de diffusion ont réalisé des progrès remarquables dans le domaine de la génération vidéo. Cependant, leur nature itérative de débruitage nécessite un grand nombre d'étapes d'inférence pour générer une vidéo, ce qui est lent et coûteux en termes de calcul. Dans cet article, nous commençons par une analyse détaillée des défis présents dans les méthodes existantes de distillation de diffusion et proposons une nouvelle méthode efficace, nommée AccVideo, pour réduire les étapes d'inférence afin d'accélérer les modèles de diffusion vidéo avec un ensemble de données synthétiques. Nous exploitons le modèle de diffusion vidéo pré-entraîné pour générer plusieurs trajectoires de débruitage valides comme notre ensemble de données synthétiques, ce qui élimine l'utilisation de points de données inutiles pendant la distillation. Sur la base de l'ensemble de données synthétiques, nous concevons un guidage en quelques étapes basé sur les trajectoires qui utilise des points de données clés des trajectoires de débruitage pour apprendre la cartographie bruit-vidéo, permettant ainsi la génération de vidéos en moins d'étapes. De plus, puisque l'ensemble de données synthétiques capture la distribution des données à chaque étape de diffusion, nous introduisons une stratégie d'entraînement adversarial pour aligner la distribution de sortie du modèle étudiant avec celle de notre ensemble de données synthétiques, améliorant ainsi la qualité de la vidéo. Des expériences approfondies démontrent que notre modèle atteint une amélioration de 8,5x en vitesse de génération par rapport au modèle enseignant tout en maintenant des performances comparables. Par rapport aux méthodes d'accélération précédentes, notre approche est capable de générer des vidéos de meilleure qualité et résolution, c'est-à-dire 5 secondes, 720x1280, 24 images par seconde.
English
Diffusion models have achieved remarkable progress in the field of video
generation. However, their iterative denoising nature requires a large number
of inference steps to generate a video, which is slow and computationally
expensive. In this paper, we begin with a detailed analysis of the challenges
present in existing diffusion distillation methods and propose a novel
efficient method, namely AccVideo, to reduce the inference steps for
accelerating video diffusion models with synthetic dataset. We leverage the
pretrained video diffusion model to generate multiple valid denoising
trajectories as our synthetic dataset, which eliminates the use of useless data
points during distillation. Based on the synthetic dataset, we design a
trajectory-based few-step guidance that utilizes key data points from the
denoising trajectories to learn the noise-to-video mapping, enabling video
generation in fewer steps. Furthermore, since the synthetic dataset captures
the data distribution at each diffusion timestep, we introduce an adversarial
training strategy to align the output distribution of the student model with
that of our synthetic dataset, thereby enhancing the video quality. Extensive
experiments demonstrate that our model achieves 8.5x improvements in generation
speed compared to the teacher model while maintaining comparable performance.
Compared to previous accelerating methods, our approach is capable of
generating videos with higher quality and resolution, i.e., 5-seconds,
720x1280, 24fps.Summary
AI-Generated Summary