VideoCrafter1: Modelos de Difusión Abiertos para la Generación de Videos de Alta Calidad
VideoCrafter1: Open Diffusion Models for High-Quality Video Generation
October 30, 2023
Autores: Haoxin Chen, Menghan Xia, Yingqing He, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Jinbo Xing, Yaofang Liu, Qifeng Chen, Xintao Wang, Chao Weng, Ying Shan
cs.AI
Resumen
La generación de videos ha ganado un creciente interés tanto en el ámbito académico como en la industria. Aunque las herramientas comerciales pueden generar videos plausibles, existe un número limitado de modelos de código abierto disponibles para investigadores e ingenieros. En este trabajo, presentamos dos modelos de difusión para la generación de videos de alta calidad, específicamente modelos de texto a video (T2V) e imagen a video (I2V). Los modelos T2V sintetizan un video a partir de una entrada de texto dada, mientras que los modelos I2V incorporan una imagen adicional como entrada. Nuestro modelo T2V propuesto puede generar videos realistas y de calidad cinematográfica con una resolución de 1024x576, superando a otros modelos T2V de código abierto en términos de calidad. El modelo I2V está diseñado para producir videos que se adhieren estrictamente al contenido de la imagen de referencia proporcionada, preservando su contenido, estructura y estilo. Este modelo es el primer modelo base I2V de código abierto capaz de transformar una imagen dada en un clip de video mientras mantiene restricciones de preservación de contenido. Creemos que estos modelos de generación de videos de código abierto contribuirán significativamente a los avances tecnológicos dentro de la comunidad.
English
Video generation has increasingly gained interest in both academia and
industry. Although commercial tools can generate plausible videos, there is a
limited number of open-source models available for researchers and engineers.
In this work, we introduce two diffusion models for high-quality video
generation, namely text-to-video (T2V) and image-to-video (I2V) models. T2V
models synthesize a video based on a given text input, while I2V models
incorporate an additional image input. Our proposed T2V model can generate
realistic and cinematic-quality videos with a resolution of 1024 times 576,
outperforming other open-source T2V models in terms of quality. The I2V model
is designed to produce videos that strictly adhere to the content of the
provided reference image, preserving its content, structure, and style. This
model is the first open-source I2V foundation model capable of transforming a
given image into a video clip while maintaining content preservation
constraints. We believe that these open-source video generation models will
contribute significantly to the technological advancements within the
community.