ChatPaper.aiChatPaper

VideoCrafter1 : Modèles de diffusion ouverts pour la génération de vidéos de haute qualité

VideoCrafter1: Open Diffusion Models for High-Quality Video Generation

October 30, 2023
papers.authors: Haoxin Chen, Menghan Xia, Yingqing He, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Jinbo Xing, Yaofang Liu, Qifeng Chen, Xintao Wang, Chao Weng, Ying Shan
cs.AI

papers.abstract

La génération de vidéos suscite un intérêt croissant tant dans le milieu académique que dans l'industrie. Bien que des outils commerciaux puissent produire des vidéos plausibles, le nombre de modèles open source disponibles pour les chercheurs et les ingénieurs reste limité. Dans ce travail, nous présentons deux modèles de diffusion pour la génération de vidéos de haute qualité, à savoir des modèles texte-à-vidéo (T2V) et image-à-vidéo (I2V). Les modèles T2V synthétisent une vidéo à partir d'une entrée textuelle donnée, tandis que les modèles I2V intègrent une entrée supplémentaire sous forme d'image. Notre modèle T2V proposé est capable de générer des vidéos réalistes et de qualité cinématographique avec une résolution de 1024 × 576, surpassant en qualité les autres modèles T2V open source. Le modèle I2V est conçu pour produire des vidéos qui respectent strictement le contenu de l'image de référence fournie, en préservant son contenu, sa structure et son style. Ce modèle est le premier modèle de base I2V open source capable de transformer une image donnée en un clip vidéo tout en respectant les contraintes de préservation du contenu. Nous pensons que ces modèles open source de génération de vidéos contribueront de manière significative aux avancées technologiques au sein de la communauté.
English
Video generation has increasingly gained interest in both academia and industry. Although commercial tools can generate plausible videos, there is a limited number of open-source models available for researchers and engineers. In this work, we introduce two diffusion models for high-quality video generation, namely text-to-video (T2V) and image-to-video (I2V) models. T2V models synthesize a video based on a given text input, while I2V models incorporate an additional image input. Our proposed T2V model can generate realistic and cinematic-quality videos with a resolution of 1024 times 576, outperforming other open-source T2V models in terms of quality. The I2V model is designed to produce videos that strictly adhere to the content of the provided reference image, preserving its content, structure, and style. This model is the first open-source I2V foundation model capable of transforming a given image into a video clip while maintaining content preservation constraints. We believe that these open-source video generation models will contribute significantly to the technological advancements within the community.
PDF162December 15, 2024