ChatPaper.aiChatPaper

VideoCrafter1: Open Diffusiemodellen voor het Genereren van Hoogwaardige Video's

VideoCrafter1: Open Diffusion Models for High-Quality Video Generation

October 30, 2023
Auteurs: Haoxin Chen, Menghan Xia, Yingqing He, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Jinbo Xing, Yaofang Liu, Qifeng Chen, Xintao Wang, Chao Weng, Ying Shan
cs.AI

Samenvatting

Videogeneratie heeft steeds meer interesse gewekt in zowel de academische wereld als de industrie. Hoewel commerciële tools geloofwaardige video's kunnen genereren, is er een beperkt aantal open-source modellen beschikbaar voor onderzoekers en ingenieurs. In dit werk introduceren we twee diffusiemodellen voor hoogwaardige videogeneratie, namelijk tekst-naar-video (T2V) en beeld-naar-video (I2V) modellen. T2V-modellen synthetiseren een video op basis van een gegeven tekstinvoer, terwijl I2V-modellen een extra beeldinvoer incorporeren. Ons voorgestelde T2V-model kan realistische en cinematografisch hoogwaardige video's genereren met een resolutie van 1024 bij 576, wat andere open-source T2V-modellen overtreft in termen van kwaliteit. Het I2V-model is ontworpen om video's te produceren die strikt de inhoud van het verstrekte referentiebeeld volgen, waarbij de inhoud, structuur en stijl behouden blijven. Dit model is het eerste open-source I2V-basismodel dat in staat is een gegeven beeld om te zetten in een videoclip, terwijl de beperkingen voor inhoudsbehoud worden gehandhaafd. Wij geloven dat deze open-source videogeneratiemodellen een significante bijdrage zullen leveren aan de technologische vooruitgang binnen de gemeenschap.
English
Video generation has increasingly gained interest in both academia and industry. Although commercial tools can generate plausible videos, there is a limited number of open-source models available for researchers and engineers. In this work, we introduce two diffusion models for high-quality video generation, namely text-to-video (T2V) and image-to-video (I2V) models. T2V models synthesize a video based on a given text input, while I2V models incorporate an additional image input. Our proposed T2V model can generate realistic and cinematic-quality videos with a resolution of 1024 times 576, outperforming other open-source T2V models in terms of quality. The I2V model is designed to produce videos that strictly adhere to the content of the provided reference image, preserving its content, structure, and style. This model is the first open-source I2V foundation model capable of transforming a given image into a video clip while maintaining content preservation constraints. We believe that these open-source video generation models will contribute significantly to the technological advancements within the community.
PDF162February 8, 2026