VideoCrafter1: Modelli di Diffusione Aperti per la Generazione di Video di Alta Qualità
VideoCrafter1: Open Diffusion Models for High-Quality Video Generation
October 30, 2023
Autori: Haoxin Chen, Menghan Xia, Yingqing He, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Jinbo Xing, Yaofang Liu, Qifeng Chen, Xintao Wang, Chao Weng, Ying Shan
cs.AI
Abstract
La generazione di video ha suscitato un interesse crescente sia in ambito accademico che industriale. Sebbene gli strumenti commerciali siano in grado di generare video plausibili, il numero di modelli open-source disponibili per ricercatori e ingegneri è limitato. In questo lavoro, introduciamo due modelli di diffusione per la generazione di video di alta qualità, ovvero modelli text-to-video (T2V) e image-to-video (I2V). I modelli T2V sintetizzano un video basandosi su un input testuale fornito, mentre i modelli I2V incorporano un'immagine aggiuntiva come input. Il nostro modello T2V proposto è in grado di generare video realistici e di qualità cinematografica con una risoluzione di 1024x576, superando altri modelli T2V open-source in termini di qualità. Il modello I2V è progettato per produrre video che aderiscono rigorosamente al contenuto dell'immagine di riferimento fornita, preservandone il contenuto, la struttura e lo stile. Questo modello rappresenta il primo modello di base I2V open-source in grado di trasformare una determinata immagine in un video mantenendo i vincoli di conservazione del contenuto. Crediamo che questi modelli open-source per la generazione di video contribuiranno significativamente ai progressi tecnologici all'interno della comunità.
English
Video generation has increasingly gained interest in both academia and
industry. Although commercial tools can generate plausible videos, there is a
limited number of open-source models available for researchers and engineers.
In this work, we introduce two diffusion models for high-quality video
generation, namely text-to-video (T2V) and image-to-video (I2V) models. T2V
models synthesize a video based on a given text input, while I2V models
incorporate an additional image input. Our proposed T2V model can generate
realistic and cinematic-quality videos with a resolution of 1024 times 576,
outperforming other open-source T2V models in terms of quality. The I2V model
is designed to produce videos that strictly adhere to the content of the
provided reference image, preserving its content, structure, and style. This
model is the first open-source I2V foundation model capable of transforming a
given image into a video clip while maintaining content preservation
constraints. We believe that these open-source video generation models will
contribute significantly to the technological advancements within the
community.