SEINE: Kurz-zu-Lang Video-Diffusionsmodell für generative Übergänge und Vorhersagen
SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction
October 31, 2023
Autoren: Xinyuan Chen, Yaohui Wang, Lingjun Zhang, Shaobin Zhuang, Xin Ma, Jiashuo Yu, Yali Wang, Dahua Lin, Yu Qiao, Ziwei Liu
cs.AI
Zusammenfassung
Kürzlich hat die Videogenerierung erhebliche Fortschritte mit realistischen
Ergebnissen erzielt. Dennoch sind bestehende KI-generierte Videos in der Regel
sehr kurze Clips ("Shot-Level"), die eine einzelne Szene darstellen. Um ein
kohärentes langes Video ("Story-Level") zu liefern, ist es wünschenswert,
kreative Übergänge und Vorhersageeffekte zwischen verschiedenen Clips zu
haben. Dieses Papier stellt ein Kurz-zu-Lang-Video-Diffusionsmodell, SEINE,
vor, das sich auf generative Übergänge und Vorhersagen konzentriert. Das Ziel
ist, hochwertige lange Videos mit flüssigen und kreativen Übergängen zwischen
Szenen und variierenden Längen von Shot-Level-Videos zu generieren. Insbesondere
schlagen wir ein Random-Mask-Video-Diffusionsmodell vor, um automatisch
Übergänge basierend auf textuellen Beschreibungen zu generieren. Durch die
Bereitstellung der Bilder verschiedener Szenen als Eingaben, kombiniert mit
textbasierter Steuerung, generiert unser Modell Übergangsvideos, die Kohärenz
und visuelle Qualität gewährleisten. Darüber hinaus kann das Modell leicht auf
verschiedene Aufgaben wie Bild-zu-Video-Animation und autoregressive
Videovorhersage erweitert werden. Um eine umfassende Bewertung dieser neuen
generativen Aufgabe durchzuführen, schlagen wir drei Bewertungskriterien für
flüssige und kreative Übergänge vor: zeitliche Konsistenz, semantische Ähnlichkeit
und Video-Text-Semantik-Ausrichtung. Umfangreiche Experimente bestätigen die
Wirksamkeit unseres Ansatzes gegenüber bestehenden Methoden für generative
Übergänge und Vorhersagen, wodurch die Erstellung von Story-Level-Langvideos
ermöglicht wird. Projektseite: https://vchitect.github.io/SEINE-project/ .
English
Recently video generation has achieved substantial progress with realistic
results. Nevertheless, existing AI-generated videos are usually very short
clips ("shot-level") depicting a single scene. To deliver a coherent long video
("story-level"), it is desirable to have creative transition and prediction
effects across different clips. This paper presents a short-to-long video
diffusion model, SEINE, that focuses on generative transition and prediction.
The goal is to generate high-quality long videos with smooth and creative
transitions between scenes and varying lengths of shot-level videos.
Specifically, we propose a random-mask video diffusion model to automatically
generate transitions based on textual descriptions. By providing the images of
different scenes as inputs, combined with text-based control, our model
generates transition videos that ensure coherence and visual quality.
Furthermore, the model can be readily extended to various tasks such as
image-to-video animation and autoregressive video prediction. To conduct a
comprehensive evaluation of this new generative task, we propose three
assessing criteria for smooth and creative transition: temporal consistency,
semantic similarity, and video-text semantic alignment. Extensive experiments
validate the effectiveness of our approach over existing methods for generative
transition and prediction, enabling the creation of story-level long videos.
Project page: https://vchitect.github.io/SEINE-project/ .