I2VGen-XL: Síntesis de Video a partir de Imágenes de Alta Calidad mediante Modelos de Difusión en Cascada
I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models
November 7, 2023
Autores: Shiwei Zhang, Jiayu Wang, Yingya Zhang, Kang Zhao, Hangjie Yuan, Zhiwu Qin, Xiang Wang, Deli Zhao, Jingren Zhou
cs.AI
Resumen
La síntesis de video ha experimentado avances notables recientemente, beneficiándose del rápido desarrollo de los modelos de difusión. Sin embargo, aún enfrenta desafíos en términos de precisión semántica, claridad y continuidad espacio-temporal. Estos problemas surgen principalmente de la escasez de datos texto-video bien alineados y de la compleja estructura inherente de los videos, lo que dificulta que el modelo garantice simultáneamente la excelencia semántica y cualitativa. En este informe, proponemos un enfoque en cascada llamado I2VGen-XL que mejora el rendimiento del modelo al desacoplar estos dos factores y asegura la alineación de los datos de entrada utilizando imágenes estáticas como una forma de guía crucial. I2VGen-XL consta de dos etapas: i) la etapa base garantiza una semántica coherente y preserva el contenido de las imágenes de entrada mediante el uso de dos codificadores jerárquicos, y ii) la etapa de refinamiento mejora los detalles del video incorporando un texto breve adicional y aumenta la resolución a 1280x720. Para mejorar la diversidad, recopilamos alrededor de 35 millones de pares texto-video de una sola toma y 6 mil millones de pares texto-imagen para optimizar el modelo. De esta manera, I2VGen-XL puede mejorar simultáneamente la precisión semántica, la continuidad de los detalles y la claridad de los videos generados. A través de experimentos exhaustivos, hemos investigado los principios subyacentes de I2VGen-XL y lo hemos comparado con los métodos más avanzados actuales, lo que demuestra su efectividad en diversos datos. El código fuente y los modelos estarán disponibles públicamente en https://i2vgen-xl.github.io.
English
Video synthesis has recently made remarkable strides benefiting from the
rapid development of diffusion models. However, it still encounters challenges
in terms of semantic accuracy, clarity and spatio-temporal continuity. They
primarily arise from the scarcity of well-aligned text-video data and the
complex inherent structure of videos, making it difficult for the model to
simultaneously ensure semantic and qualitative excellence. In this report, we
propose a cascaded I2VGen-XL approach that enhances model performance by
decoupling these two factors and ensures the alignment of the input data by
utilizing static images as a form of crucial guidance. I2VGen-XL consists of
two stages: i) the base stage guarantees coherent semantics and preserves
content from input images by using two hierarchical encoders, and ii) the
refinement stage enhances the video's details by incorporating an additional
brief text and improves the resolution to 1280times720. To improve the
diversity, we collect around 35 million single-shot text-video pairs and 6
billion text-image pairs to optimize the model. By this means, I2VGen-XL can
simultaneously enhance the semantic accuracy, continuity of details and clarity
of generated videos. Through extensive experiments, we have investigated the
underlying principles of I2VGen-XL and compared it with current top methods,
which can demonstrate its effectiveness on diverse data. The source code and
models will be publicly available at https://i2vgen-xl.github.io.