ChatPaper.aiChatPaper

I2VGen-XL: Síntesis de Video a partir de Imágenes de Alta Calidad mediante Modelos de Difusión en Cascada

I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models

November 7, 2023
Autores: Shiwei Zhang, Jiayu Wang, Yingya Zhang, Kang Zhao, Hangjie Yuan, Zhiwu Qin, Xiang Wang, Deli Zhao, Jingren Zhou
cs.AI

Resumen

La síntesis de video ha experimentado avances notables recientemente, beneficiándose del rápido desarrollo de los modelos de difusión. Sin embargo, aún enfrenta desafíos en términos de precisión semántica, claridad y continuidad espacio-temporal. Estos problemas surgen principalmente de la escasez de datos texto-video bien alineados y de la compleja estructura inherente de los videos, lo que dificulta que el modelo garantice simultáneamente la excelencia semántica y cualitativa. En este informe, proponemos un enfoque en cascada llamado I2VGen-XL que mejora el rendimiento del modelo al desacoplar estos dos factores y asegura la alineación de los datos de entrada utilizando imágenes estáticas como una forma de guía crucial. I2VGen-XL consta de dos etapas: i) la etapa base garantiza una semántica coherente y preserva el contenido de las imágenes de entrada mediante el uso de dos codificadores jerárquicos, y ii) la etapa de refinamiento mejora los detalles del video incorporando un texto breve adicional y aumenta la resolución a 1280x720. Para mejorar la diversidad, recopilamos alrededor de 35 millones de pares texto-video de una sola toma y 6 mil millones de pares texto-imagen para optimizar el modelo. De esta manera, I2VGen-XL puede mejorar simultáneamente la precisión semántica, la continuidad de los detalles y la claridad de los videos generados. A través de experimentos exhaustivos, hemos investigado los principios subyacentes de I2VGen-XL y lo hemos comparado con los métodos más avanzados actuales, lo que demuestra su efectividad en diversos datos. El código fuente y los modelos estarán disponibles públicamente en https://i2vgen-xl.github.io.
English
Video synthesis has recently made remarkable strides benefiting from the rapid development of diffusion models. However, it still encounters challenges in terms of semantic accuracy, clarity and spatio-temporal continuity. They primarily arise from the scarcity of well-aligned text-video data and the complex inherent structure of videos, making it difficult for the model to simultaneously ensure semantic and qualitative excellence. In this report, we propose a cascaded I2VGen-XL approach that enhances model performance by decoupling these two factors and ensures the alignment of the input data by utilizing static images as a form of crucial guidance. I2VGen-XL consists of two stages: i) the base stage guarantees coherent semantics and preserves content from input images by using two hierarchical encoders, and ii) the refinement stage enhances the video's details by incorporating an additional brief text and improves the resolution to 1280times720. To improve the diversity, we collect around 35 million single-shot text-video pairs and 6 billion text-image pairs to optimize the model. By this means, I2VGen-XL can simultaneously enhance the semantic accuracy, continuity of details and clarity of generated videos. Through extensive experiments, we have investigated the underlying principles of I2VGen-XL and compared it with current top methods, which can demonstrate its effectiveness on diverse data. The source code and models will be publicly available at https://i2vgen-xl.github.io.
PDF353December 15, 2024