VideoCrafter1 : Modèles de diffusion ouverts pour la génération de vidéos de haute qualité
VideoCrafter1: Open Diffusion Models for High-Quality Video Generation
October 30, 2023
papers.authors: Haoxin Chen, Menghan Xia, Yingqing He, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Jinbo Xing, Yaofang Liu, Qifeng Chen, Xintao Wang, Chao Weng, Ying Shan
cs.AI
papers.abstract
La génération de vidéos suscite un intérêt croissant tant dans le milieu académique que dans l'industrie. Bien que des outils commerciaux puissent produire des vidéos plausibles, le nombre de modèles open source disponibles pour les chercheurs et les ingénieurs reste limité. Dans ce travail, nous présentons deux modèles de diffusion pour la génération de vidéos de haute qualité, à savoir des modèles texte-à-vidéo (T2V) et image-à-vidéo (I2V). Les modèles T2V synthétisent une vidéo à partir d'une entrée textuelle donnée, tandis que les modèles I2V intègrent une entrée supplémentaire sous forme d'image. Notre modèle T2V proposé est capable de générer des vidéos réalistes et de qualité cinématographique avec une résolution de 1024 × 576, surpassant en qualité les autres modèles T2V open source. Le modèle I2V est conçu pour produire des vidéos qui respectent strictement le contenu de l'image de référence fournie, en préservant son contenu, sa structure et son style. Ce modèle est le premier modèle de base I2V open source capable de transformer une image donnée en un clip vidéo tout en respectant les contraintes de préservation du contenu. Nous pensons que ces modèles open source de génération de vidéos contribueront de manière significative aux avancées technologiques au sein de la communauté.
English
Video generation has increasingly gained interest in both academia and
industry. Although commercial tools can generate plausible videos, there is a
limited number of open-source models available for researchers and engineers.
In this work, we introduce two diffusion models for high-quality video
generation, namely text-to-video (T2V) and image-to-video (I2V) models. T2V
models synthesize a video based on a given text input, while I2V models
incorporate an additional image input. Our proposed T2V model can generate
realistic and cinematic-quality videos with a resolution of 1024 times 576,
outperforming other open-source T2V models in terms of quality. The I2V model
is designed to produce videos that strictly adhere to the content of the
provided reference image, preserving its content, structure, and style. This
model is the first open-source I2V foundation model capable of transforming a
given image into a video clip while maintaining content preservation
constraints. We believe that these open-source video generation models will
contribute significantly to the technological advancements within the
community.