ChatPaper.aiChatPaper

VideoCrafter1: Offene Diffusionsmodelle für die Erzeugung hochwertiger Videos

VideoCrafter1: Open Diffusion Models for High-Quality Video Generation

October 30, 2023
papers.authors: Haoxin Chen, Menghan Xia, Yingqing He, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Jinbo Xing, Yaofang Liu, Qifeng Chen, Xintao Wang, Chao Weng, Ying Shan
cs.AI

papers.abstract

Die Videogenerierung hat zunehmend Interesse sowohl in der Wissenschaft als auch in der Industrie geweckt. Obwohl kommerzielle Tools plausible Videos erzeugen können, gibt es nur eine begrenzte Anzahl von Open-Source-Modellen, die Forschern und Ingenieuren zur Verfügung stehen. In dieser Arbeit stellen wir zwei Diffusionsmodelle für die hochwertige Videogenerierung vor, nämlich Text-zu-Video (T2V) und Bild-zu-Video (I2V) Modelle. T2V-Modelle synthetisieren ein Video basierend auf einem gegebenen Texteingabe, während I2V-Modelle ein zusätzliches Bildeingabe integrieren. Unser vorgeschlagenes T2V-Modell kann realistische und kinematografisch hochwertige Videos mit einer Auflösung von 1024 mal 576 erzeugen und übertrifft damit andere Open-Source-T2V-Modelle in Bezug auf die Qualität. Das I2V-Modell ist darauf ausgelegt, Videos zu produzieren, die streng den Inhalt des bereitgestellten Referenzbilds einhalten und dessen Inhalt, Struktur und Stil bewahren. Dieses Modell ist das erste Open-Source-I2V-Basismodell, das ein gegebenes Bild in einen Videoclip umwandeln kann, während es die Inhaltserhaltungsbedingungen einhält. Wir glauben, dass diese Open-Source-Videogenerierungsmodelle einen bedeutenden Beitrag zu den technologischen Fortschritten innerhalb der Gemeinschaft leisten werden.
English
Video generation has increasingly gained interest in both academia and industry. Although commercial tools can generate plausible videos, there is a limited number of open-source models available for researchers and engineers. In this work, we introduce two diffusion models for high-quality video generation, namely text-to-video (T2V) and image-to-video (I2V) models. T2V models synthesize a video based on a given text input, while I2V models incorporate an additional image input. Our proposed T2V model can generate realistic and cinematic-quality videos with a resolution of 1024 times 576, outperforming other open-source T2V models in terms of quality. The I2V model is designed to produce videos that strictly adhere to the content of the provided reference image, preserving its content, structure, and style. This model is the first open-source I2V foundation model capable of transforming a given image into a video clip while maintaining content preservation constraints. We believe that these open-source video generation models will contribute significantly to the technological advancements within the community.
PDF162December 15, 2024