VideoCrafter1: Offene Diffusionsmodelle für die Erzeugung hochwertiger Videos
VideoCrafter1: Open Diffusion Models for High-Quality Video Generation
October 30, 2023
papers.authors: Haoxin Chen, Menghan Xia, Yingqing He, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Jinbo Xing, Yaofang Liu, Qifeng Chen, Xintao Wang, Chao Weng, Ying Shan
cs.AI
papers.abstract
Die Videogenerierung hat zunehmend Interesse sowohl in der Wissenschaft als auch in der Industrie geweckt. Obwohl kommerzielle Tools plausible Videos erzeugen können, gibt es nur eine begrenzte Anzahl von Open-Source-Modellen, die Forschern und Ingenieuren zur Verfügung stehen. In dieser Arbeit stellen wir zwei Diffusionsmodelle für die hochwertige Videogenerierung vor, nämlich Text-zu-Video (T2V) und Bild-zu-Video (I2V) Modelle. T2V-Modelle synthetisieren ein Video basierend auf einem gegebenen Texteingabe, während I2V-Modelle ein zusätzliches Bildeingabe integrieren. Unser vorgeschlagenes T2V-Modell kann realistische und kinematografisch hochwertige Videos mit einer Auflösung von 1024 mal 576 erzeugen und übertrifft damit andere Open-Source-T2V-Modelle in Bezug auf die Qualität. Das I2V-Modell ist darauf ausgelegt, Videos zu produzieren, die streng den Inhalt des bereitgestellten Referenzbilds einhalten und dessen Inhalt, Struktur und Stil bewahren. Dieses Modell ist das erste Open-Source-I2V-Basismodell, das ein gegebenes Bild in einen Videoclip umwandeln kann, während es die Inhaltserhaltungsbedingungen einhält. Wir glauben, dass diese Open-Source-Videogenerierungsmodelle einen bedeutenden Beitrag zu den technologischen Fortschritten innerhalb der Gemeinschaft leisten werden.
English
Video generation has increasingly gained interest in both academia and
industry. Although commercial tools can generate plausible videos, there is a
limited number of open-source models available for researchers and engineers.
In this work, we introduce two diffusion models for high-quality video
generation, namely text-to-video (T2V) and image-to-video (I2V) models. T2V
models synthesize a video based on a given text input, while I2V models
incorporate an additional image input. Our proposed T2V model can generate
realistic and cinematic-quality videos with a resolution of 1024 times 576,
outperforming other open-source T2V models in terms of quality. The I2V model
is designed to produce videos that strictly adhere to the content of the
provided reference image, preserving its content, structure, and style. This
model is the first open-source I2V foundation model capable of transforming a
given image into a video clip while maintaining content preservation
constraints. We believe that these open-source video generation models will
contribute significantly to the technological advancements within the
community.