VideoCrafter1: Open Diffusiemodellen voor het Genereren van Hoogwaardige Video's
VideoCrafter1: Open Diffusion Models for High-Quality Video Generation
October 30, 2023
Auteurs: Haoxin Chen, Menghan Xia, Yingqing He, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Jinbo Xing, Yaofang Liu, Qifeng Chen, Xintao Wang, Chao Weng, Ying Shan
cs.AI
Samenvatting
Videogeneratie heeft steeds meer interesse gewekt in zowel de academische wereld als de industrie. Hoewel commerciële tools geloofwaardige video's kunnen genereren, is er een beperkt aantal open-source modellen beschikbaar voor onderzoekers en ingenieurs. In dit werk introduceren we twee diffusiemodellen voor hoogwaardige videogeneratie, namelijk tekst-naar-video (T2V) en beeld-naar-video (I2V) modellen. T2V-modellen synthetiseren een video op basis van een gegeven tekstinvoer, terwijl I2V-modellen een extra beeldinvoer incorporeren. Ons voorgestelde T2V-model kan realistische en cinematografisch hoogwaardige video's genereren met een resolutie van 1024 bij 576, wat andere open-source T2V-modellen overtreft in termen van kwaliteit. Het I2V-model is ontworpen om video's te produceren die strikt de inhoud van het verstrekte referentiebeeld volgen, waarbij de inhoud, structuur en stijl behouden blijven. Dit model is het eerste open-source I2V-basismodel dat in staat is een gegeven beeld om te zetten in een videoclip, terwijl de beperkingen voor inhoudsbehoud worden gehandhaafd. Wij geloven dat deze open-source videogeneratiemodellen een significante bijdrage zullen leveren aan de technologische vooruitgang binnen de gemeenschap.
English
Video generation has increasingly gained interest in both academia and
industry. Although commercial tools can generate plausible videos, there is a
limited number of open-source models available for researchers and engineers.
In this work, we introduce two diffusion models for high-quality video
generation, namely text-to-video (T2V) and image-to-video (I2V) models. T2V
models synthesize a video based on a given text input, while I2V models
incorporate an additional image input. Our proposed T2V model can generate
realistic and cinematic-quality videos with a resolution of 1024 times 576,
outperforming other open-source T2V models in terms of quality. The I2V model
is designed to produce videos that strictly adhere to the content of the
provided reference image, preserving its content, structure, and style. This
model is the first open-source I2V foundation model capable of transforming a
given image into a video clip while maintaining content preservation
constraints. We believe that these open-source video generation models will
contribute significantly to the technological advancements within the
community.