I2VGen-XL: Hochwertige Bild-zu-Video-Synthese mittels kaskadierter Diffusionsmodelle
I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models
November 7, 2023
Autoren: Shiwei Zhang, Jiayu Wang, Yingya Zhang, Kang Zhao, Hangjie Yuan, Zhiwu Qin, Xiang Wang, Deli Zhao, Jingren Zhou
cs.AI
Zusammenfassung
Die Videosynthese hat in letzter Zeit bemerkenswerte Fortschritte gemacht, die von der rasanten Entwicklung von Diffusionsmodellen profitieren. Dennoch steht sie weiterhin vor Herausforderungen in Bezug auf semantische Genauigkeit, Klarheit und räumlich-zeitliche Kontinuität. Diese ergeben sich hauptsächlich aus der Knappheit gut ausgerichteter Text-Video-Daten und der komplexen inhärenten Struktur von Videos, was es dem Modell erschwert, gleichzeitig semantische und qualitative Exzellenz zu gewährleisten. In diesem Bericht schlagen wir einen kaskadierten I2VGen-XL-Ansatz vor, der die Modellleistung verbessert, indem diese beiden Faktoren entkoppelt werden, und die Ausrichtung der Eingabedaten durch die Nutzung statischer Bilder als eine Form entscheidender Anleitung sicherstellt. I2VGen-XL besteht aus zwei Stufen: i) die Basisstufe gewährleistet kohärente Semantik und bewahrt den Inhalt der Eingabebilder durch die Verwendung von zwei hierarchischen Encodern, und ii) die Verfeinerungsstufe verbessert die Details des Videos durch die Einbindung eines zusätzlichen kurzen Textes und erhöht die Auflösung auf 1280x720. Um die Vielfalt zu verbessern, sammeln wir etwa 35 Millionen Einzelaufnahme-Text-Video-Paare und 6 Milliarden Text-Bild-Paare, um das Modell zu optimieren. Auf diese Weise kann I2VGen-XL gleichzeitig die semantische Genauigkeit, die Kontinuität der Details und die Klarheit der generierten Videos verbessern. Durch umfangreiche Experimente haben wir die zugrunde liegenden Prinzipien von I2VGen-XL untersucht und es mit aktuellen Top-Methoden verglichen, was seine Wirksamkeit auf diversen Daten demonstrieren kann. Der Quellcode und die Modelle werden öffentlich unter https://i2vgen-xl.github.io verfügbar sein.
English
Video synthesis has recently made remarkable strides benefiting from the
rapid development of diffusion models. However, it still encounters challenges
in terms of semantic accuracy, clarity and spatio-temporal continuity. They
primarily arise from the scarcity of well-aligned text-video data and the
complex inherent structure of videos, making it difficult for the model to
simultaneously ensure semantic and qualitative excellence. In this report, we
propose a cascaded I2VGen-XL approach that enhances model performance by
decoupling these two factors and ensures the alignment of the input data by
utilizing static images as a form of crucial guidance. I2VGen-XL consists of
two stages: i) the base stage guarantees coherent semantics and preserves
content from input images by using two hierarchical encoders, and ii) the
refinement stage enhances the video's details by incorporating an additional
brief text and improves the resolution to 1280times720. To improve the
diversity, we collect around 35 million single-shot text-video pairs and 6
billion text-image pairs to optimize the model. By this means, I2VGen-XL can
simultaneously enhance the semantic accuracy, continuity of details and clarity
of generated videos. Through extensive experiments, we have investigated the
underlying principles of I2VGen-XL and compared it with current top methods,
which can demonstrate its effectiveness on diverse data. The source code and
models will be publicly available at https://i2vgen-xl.github.io.