I2VGen-XL: Síntese de Vídeo de Alta Qualidade a partir de Imagens por meio de Modelos de Difusão em Cascata
I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models
November 7, 2023
Autores: Shiwei Zhang, Jiayu Wang, Yingya Zhang, Kang Zhao, Hangjie Yuan, Zhiwu Qin, Xiang Wang, Deli Zhao, Jingren Zhou
cs.AI
Resumo
A síntese de vídeo tem recentemente alcançado avanços notáveis, beneficiando-se do rápido desenvolvimento dos modelos de difusão. No entanto, ainda enfrenta desafios em termos de precisão semântica, clareza e continuidade espaço-temporal. Esses desafios surgem principalmente da escassez de dados texto-vídeo bem alinhados e da complexa estrutura inerente aos vídeos, o que dificulta a capacidade do modelo de garantir simultaneamente excelência semântica e qualitativa. Neste relatório, propomos uma abordagem em cascata chamada I2VGen-XL, que melhora o desempenho do modelo ao desacoplar esses dois fatores e garante o alinhamento dos dados de entrada utilizando imagens estáticas como uma forma de orientação crucial. O I2VGen-XL consiste em dois estágios: i) o estágio base garante semântica coerente e preserva o conteúdo das imagens de entrada por meio de dois codificadores hierárquicos, e ii) o estágio de refinamento aprimora os detalhes do vídeo ao incorporar um breve texto adicional e melhora a resolução para 1280x720. Para aumentar a diversidade, coletamos cerca de 35 milhões de pares texto-vídeo de cena única e 6 bilhões de pares texto-imagem para otimizar o modelo. Dessa forma, o I2VGen-XL pode simultaneamente melhorar a precisão semântica, a continuidade dos detalhes e a clareza dos vídeos gerados. Por meio de extensos experimentos, investigamos os princípios subjacentes do I2VGen-XL e o comparamos com os principais métodos atuais, o que demonstra sua eficácia em diversos dados. O código-fonte e os modelos estarão publicamente disponíveis em https://i2vgen-xl.github.io.
English
Video synthesis has recently made remarkable strides benefiting from the
rapid development of diffusion models. However, it still encounters challenges
in terms of semantic accuracy, clarity and spatio-temporal continuity. They
primarily arise from the scarcity of well-aligned text-video data and the
complex inherent structure of videos, making it difficult for the model to
simultaneously ensure semantic and qualitative excellence. In this report, we
propose a cascaded I2VGen-XL approach that enhances model performance by
decoupling these two factors and ensures the alignment of the input data by
utilizing static images as a form of crucial guidance. I2VGen-XL consists of
two stages: i) the base stage guarantees coherent semantics and preserves
content from input images by using two hierarchical encoders, and ii) the
refinement stage enhances the video's details by incorporating an additional
brief text and improves the resolution to 1280times720. To improve the
diversity, we collect around 35 million single-shot text-video pairs and 6
billion text-image pairs to optimize the model. By this means, I2VGen-XL can
simultaneously enhance the semantic accuracy, continuity of details and clarity
of generated videos. Through extensive experiments, we have investigated the
underlying principles of I2VGen-XL and compared it with current top methods,
which can demonstrate its effectiveness on diverse data. The source code and
models will be publicly available at https://i2vgen-xl.github.io.