I2VGen-XL: Sintesi Video di Alta Qualità da Immagini tramite Modelli di Diffusione a Cascata
I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models
November 7, 2023
Autori: Shiwei Zhang, Jiayu Wang, Yingya Zhang, Kang Zhao, Hangjie Yuan, Zhiwu Qin, Xiang Wang, Deli Zhao, Jingren Zhou
cs.AI
Abstract
La sintesi video ha recentemente compiuto progressi significativi grazie al rapido sviluppo dei modelli di diffusione. Tuttavia, incontra ancora sfide in termini di accuratezza semantica, chiarezza e continuità spazio-temporale. Queste difficoltà derivano principalmente dalla scarsità di dati testo-video ben allineati e dalla complessa struttura intrinseca dei video, rendendo difficile per il modello garantire simultaneamente eccellenza semantica e qualitativa. In questo rapporto, proponiamo un approccio a cascata denominato I2VGen-XL che migliora le prestazioni del modello separando questi due fattori e assicurando l'allineamento dei dati di input utilizzando immagini statiche come forma di guida cruciale. I2VGen-XL si compone di due fasi: i) la fase base garantisce una semantica coerente e preserva il contenuto delle immagini di input utilizzando due encoder gerarchici, e ii) la fase di raffinamento migliora i dettagli del video incorporando un breve testo aggiuntivo e aumenta la risoluzione a 1280x720. Per migliorare la diversità, abbiamo raccolto circa 35 milioni di coppie testo-video a singolo scatto e 6 miliardi di coppie testo-immagine per ottimizzare il modello. In questo modo, I2VGen-XL può simultaneamente migliorare l'accuratezza semantica, la continuità dei dettagli e la chiarezza dei video generati. Attraverso esperimenti estensivi, abbiamo investigato i principi sottostanti di I2VGen-XL e lo abbiamo confrontato con i metodi attualmente più avanzati, dimostrandone l'efficacia su dati diversi. Il codice sorgente e i modelli saranno pubblicamente disponibili all'indirizzo https://i2vgen-xl.github.io.
English
Video synthesis has recently made remarkable strides benefiting from the
rapid development of diffusion models. However, it still encounters challenges
in terms of semantic accuracy, clarity and spatio-temporal continuity. They
primarily arise from the scarcity of well-aligned text-video data and the
complex inherent structure of videos, making it difficult for the model to
simultaneously ensure semantic and qualitative excellence. In this report, we
propose a cascaded I2VGen-XL approach that enhances model performance by
decoupling these two factors and ensures the alignment of the input data by
utilizing static images as a form of crucial guidance. I2VGen-XL consists of
two stages: i) the base stage guarantees coherent semantics and preserves
content from input images by using two hierarchical encoders, and ii) the
refinement stage enhances the video's details by incorporating an additional
brief text and improves the resolution to 1280times720. To improve the
diversity, we collect around 35 million single-shot text-video pairs and 6
billion text-image pairs to optimize the model. By this means, I2VGen-XL can
simultaneously enhance the semantic accuracy, continuity of details and clarity
of generated videos. Through extensive experiments, we have investigated the
underlying principles of I2VGen-XL and compared it with current top methods,
which can demonstrate its effectiveness on diverse data. The source code and
models will be publicly available at https://i2vgen-xl.github.io.