ExVideo : Extension des modèles de diffusion vidéo via un post-réglage paramétrique efficace
ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning
June 20, 2024
Auteurs: Zhongjie Duan, Wenmeng Zhou, Cen Chen, Yaliang Li, Weining Qian
cs.AI
Résumé
Récemment, les avancées en synthèse vidéo ont suscité une attention considérable. Des modèles de synthèse vidéo tels qu'AnimateDiff et Stable Video Diffusion ont démontré l'applicabilité pratique des modèles de diffusion dans la création de contenu visuel dynamique. L'émergence de SORA a encore mis en lumière le potentiel des technologies de génération vidéo. Néanmoins, l'extension de la durée des vidéos a été limitée par les contraintes en ressources computationnelles. La plupart des modèles de synthèse vidéo existants ne peuvent générer que de courts clips vidéo. Dans cet article, nous proposons une nouvelle méthodologie de post-ajustement pour les modèles de synthèse vidéo, appelée ExVideo. Cette approche est conçue pour améliorer la capacité des modèles de synthèse vidéo actuels, leur permettant de produire du contenu sur des durées temporelles prolongées tout en réduisant les coûts de formation. En particulier, nous concevons des stratégies d'extension pour différentes architectures de modèles temporels, incluant la convolution 3D, l'attention temporelle et l'incorporation positionnelle. Pour évaluer l'efficacité de notre approche de post-ajustement, nous effectuons une formation d'extension sur le modèle Stable Video Diffusion. Notre approche augmente la capacité du modèle à générer jusqu'à 5 fois plus de trames que son nombre original, nécessitant seulement 1,5k heures de formation sur GPU avec un ensemble de données comprenant 40k vidéos. Il est important de noter que l'augmentation substantielle de la durée vidéo ne compromet pas les capacités de généralisation intrinsèques du modèle, et celui-ci démontre ses avantages dans la génération de vidéos de styles et résolutions variés. Nous rendrons public le code source ainsi que le modèle amélioré.
English
Recently, advancements in video synthesis have attracted significant
attention. Video synthesis models such as AnimateDiff and Stable Video
Diffusion have demonstrated the practical applicability of diffusion models in
creating dynamic visual content. The emergence of SORA has further spotlighted
the potential of video generation technologies. Nonetheless, the extension of
video lengths has been constrained by the limitations in computational
resources. Most existing video synthesis models can only generate short video
clips. In this paper, we propose a novel post-tuning methodology for video
synthesis models, called ExVideo. This approach is designed to enhance the
capability of current video synthesis models, allowing them to produce content
over extended temporal durations while incurring lower training expenditures.
In particular, we design extension strategies across common temporal model
architectures respectively, including 3D convolution, temporal attention, and
positional embedding. To evaluate the efficacy of our proposed post-tuning
approach, we conduct extension training on the Stable Video Diffusion model.
Our approach augments the model's capacity to generate up to 5times its
original number of frames, requiring only 1.5k GPU hours of training on a
dataset comprising 40k videos. Importantly, the substantial increase in video
length doesn't compromise the model's innate generalization capabilities, and
the model showcases its advantages in generating videos of diverse styles and
resolutions. We will release the source code and the enhanced model publicly.Summary
AI-Generated Summary