I2VGen-XL: Hoogwaardige beeld-naar-video-synthese via gecascadeerde diffusiemodellen
I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models
November 7, 2023
Auteurs: Shiwei Zhang, Jiayu Wang, Yingya Zhang, Kang Zhao, Hangjie Yuan, Zhiwu Qin, Xiang Wang, Deli Zhao, Jingren Zhou
cs.AI
Samenvatting
Video-synthese heeft recentelijk opmerkelijke vooruitgang geboekt dankzij de snelle ontwikkeling van diffusiemodellen. Het stuit echter nog steeds op uitdagingen op het gebied van semantische nauwkeurigheid, helderheid en spatio-temporele continuïteit. Deze ontstaan voornamelijk door de schaarste aan goed uitgelijnde tekst-video-data en de complexe inherente structuur van video's, waardoor het voor het model moeilijk is om tegelijkertijd semantische en kwalitatieve excellentie te waarborgen. In dit rapport stellen we een gecascadeerde I2VGen-XL-aanpak voor die de modelprestaties verbetert door deze twee factoren te ontkoppelen en de uitlijning van de invoerdata te waarborgen door statische afbeeldingen te gebruiken als een vorm van cruciale begeleiding. I2VGen-XL bestaat uit twee fasen: i) de basisfase garandeert samenhangende semantiek en behoudt de inhoud van invoerafbeeldingen door gebruik te maken van twee hiërarchische encoders, en ii) de verfijningsfase verbetert de details van de video door een aanvullende korte tekst te incorporeren en de resolutie te verhogen naar 1280x720. Om de diversiteit te verbeteren, hebben we ongeveer 35 miljoen enkelvoudige tekst-video-paren en 6 miljard tekst-afbeelding-paren verzameld om het model te optimaliseren. Op deze manier kan I2VGen-XL tegelijkertijd de semantische nauwkeurigheid, de continuïteit van details en de helderheid van gegenereerde video's verbeteren. Door uitgebreide experimenten hebben we de onderliggende principes van I2VGen-XL onderzocht en vergeleken met huidige topmethoden, wat de effectiviteit ervan op diverse data kan aantonen. De broncode en modellen zullen publiekelijk beschikbaar zijn op https://i2vgen-xl.github.io.
English
Video synthesis has recently made remarkable strides benefiting from the
rapid development of diffusion models. However, it still encounters challenges
in terms of semantic accuracy, clarity and spatio-temporal continuity. They
primarily arise from the scarcity of well-aligned text-video data and the
complex inherent structure of videos, making it difficult for the model to
simultaneously ensure semantic and qualitative excellence. In this report, we
propose a cascaded I2VGen-XL approach that enhances model performance by
decoupling these two factors and ensures the alignment of the input data by
utilizing static images as a form of crucial guidance. I2VGen-XL consists of
two stages: i) the base stage guarantees coherent semantics and preserves
content from input images by using two hierarchical encoders, and ii) the
refinement stage enhances the video's details by incorporating an additional
brief text and improves the resolution to 1280times720. To improve the
diversity, we collect around 35 million single-shot text-video pairs and 6
billion text-image pairs to optimize the model. By this means, I2VGen-XL can
simultaneously enhance the semantic accuracy, continuity of details and clarity
of generated videos. Through extensive experiments, we have investigated the
underlying principles of I2VGen-XL and compared it with current top methods,
which can demonstrate its effectiveness on diverse data. The source code and
models will be publicly available at https://i2vgen-xl.github.io.