SEINE : Modèle de diffusion vidéo court-long pour la transition générative et la prédiction
SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction
October 31, 2023
Auteurs: Xinyuan Chen, Yaohui Wang, Lingjun Zhang, Shaobin Zhuang, Xin Ma, Jiashuo Yu, Yali Wang, Dahua Lin, Yu Qiao, Ziwei Liu
cs.AI
Résumé
Récemment, la génération vidéo a réalisé des progrès substantiels avec des résultats réalistes. Néanmoins, les vidéos générées par IA existantes sont généralement de très courts clips ("niveau plan") décrivant une seule scène. Pour produire une longue vidéo cohérente ("niveau histoire"), il est souhaitable d'avoir des effets de transition et de prédiction créatifs entre différents clips. Cet article présente un modèle de diffusion vidéo court-long, SEINE, qui se concentre sur la transition et la prédiction génératives. L'objectif est de générer des vidéos longues de haute qualité avec des transitions fluides et créatives entre les scènes et des durées variables de vidéos au niveau plan. Plus précisément, nous proposons un modèle de diffusion vidéo à masque aléatoire pour générer automatiquement des transitions basées sur des descriptions textuelles. En fournissant les images de différentes scènes comme entrées, combinées à un contrôle basé sur le texte, notre modèle génère des vidéos de transition qui assurent la cohérence et la qualité visuelle. De plus, le modèle peut être facilement étendu à diverses tâches telles que l'animation image-vidéo et la prédiction vidéo autorégressive. Pour mener une évaluation complète de cette nouvelle tâche générative, nous proposons trois critères d'évaluation pour une transition fluide et créative : la cohérence temporelle, la similarité sémantique et l'alignement sémantique vidéo-texte. Des expériences approfondies valident l'efficacité de notre approche par rapport aux méthodes existantes pour la transition et la prédiction génératives, permettant la création de vidéos longues au niveau histoire. Page du projet : https://vchitect.github.io/SEINE-project/ .
English
Recently video generation has achieved substantial progress with realistic
results. Nevertheless, existing AI-generated videos are usually very short
clips ("shot-level") depicting a single scene. To deliver a coherent long video
("story-level"), it is desirable to have creative transition and prediction
effects across different clips. This paper presents a short-to-long video
diffusion model, SEINE, that focuses on generative transition and prediction.
The goal is to generate high-quality long videos with smooth and creative
transitions between scenes and varying lengths of shot-level videos.
Specifically, we propose a random-mask video diffusion model to automatically
generate transitions based on textual descriptions. By providing the images of
different scenes as inputs, combined with text-based control, our model
generates transition videos that ensure coherence and visual quality.
Furthermore, the model can be readily extended to various tasks such as
image-to-video animation and autoregressive video prediction. To conduct a
comprehensive evaluation of this new generative task, we propose three
assessing criteria for smooth and creative transition: temporal consistency,
semantic similarity, and video-text semantic alignment. Extensive experiments
validate the effectiveness of our approach over existing methods for generative
transition and prediction, enabling the creation of story-level long videos.
Project page: https://vchitect.github.io/SEINE-project/ .