ChatPaper.aiChatPaper

Préservez Votre Propre Corrélation : Un A Priori de Bruit pour les Modèles de Diffusion Vidéo

Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models

May 17, 2023
Auteurs: Songwei Ge, Seungjun Nah, Guilin Liu, Tyler Poon, Andrew Tao, Bryan Catanzaro, David Jacobs, Jia-Bin Huang, Ming-Yu Liu, Yogesh Balaji
cs.AI

Résumé

Malgré des progrès considérables dans la génération d'images de haute qualité grâce aux modèles de diffusion, la synthèse d'une séquence de frames animées à la fois photoréalistes et temporellement cohérentes en est encore à ses balbutiements. Bien que des ensembles de données à l'échelle du milliard soient disponibles pour la génération d'images, la collecte de données vidéo similaires à la même échelle reste un défi. De plus, l'entraînement d'un modèle de diffusion vidéo est beaucoup plus coûteux en termes de calcul que son équivalent pour les images. Dans ce travail, nous explorons le fine-tuning d'un modèle de diffusion d'images pré-entraîné avec des données vidéo comme solution pratique pour la tâche de synthèse vidéo. Nous constatons qu'une extension naïve du bruit d'image au bruit vidéo dans la diffusion vidéo conduit à des performances sous-optimales. Notre conception soigneusement élaborée du bruit vidéo permet d'obtenir des performances nettement supérieures. Une validation expérimentale approfondie montre que notre modèle, Preserve Your Own Correlation (PYoCo), atteint des résultats SOTA en génération zéro-shot de texte à vidéo sur les benchmarks UCF-101 et MSR-VTT. Il atteint également une qualité de génération vidéo SOTA sur le benchmark à petite échelle UCF-101 avec un modèle 10 fois plus petit, en utilisant significativement moins de calcul que l'état de l'art précédent.
English
Despite tremendous progress in generating high-quality images using diffusion models, synthesizing a sequence of animated frames that are both photorealistic and temporally coherent is still in its infancy. While off-the-shelf billion-scale datasets for image generation are available, collecting similar video data of the same scale is still challenging. Also, training a video diffusion model is computationally much more expensive than its image counterpart. In this work, we explore finetuning a pretrained image diffusion model with video data as a practical solution for the video synthesis task. We find that naively extending the image noise prior to video noise prior in video diffusion leads to sub-optimal performance. Our carefully designed video noise prior leads to substantially better performance. Extensive experimental validation shows that our model, Preserve Your Own Correlation (PYoCo), attains SOTA zero-shot text-to-video results on the UCF-101 and MSR-VTT benchmarks. It also achieves SOTA video generation quality on the small-scale UCF-101 benchmark with a 10times smaller model using significantly less computation than the prior art.
PDF10December 15, 2024