SEINE: Kort-naar-lang Video Diffusiemodel voor Generatieve Overgang en Voorspelling
SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction
October 31, 2023
Auteurs: Xinyuan Chen, Yaohui Wang, Lingjun Zhang, Shaobin Zhuang, Xin Ma, Jiashuo Yu, Yali Wang, Dahua Lin, Yu Qiao, Ziwei Liu
cs.AI
Samenvatting
Onlangs heeft videogeneratie aanzienlijke vooruitgang geboekt met realistische resultaten. Desalniettemin bestaan AI-gegenereerde video's meestal uit zeer korte fragmenten ("shot-level") die één enkele scène weergeven. Om een samenhangende lange video ("story-level") te leveren, is het wenselijk om creatieve overgangs- en voorspel-effecten tussen verschillende fragmenten te hebben. Dit artikel presenteert een kort-naar-lang video diffusiemodel, SEINE, dat zich richt op generatieve overgangen en voorspellingen. Het doel is om hoogwaardige lange video's te genereren met vloeiende en creatieve overgangen tussen scènes en variërende lengtes van shot-level video's. Specifiek stellen we een random-mask video diffusiemodel voor om automatisch overgangen te genereren op basis van tekstuele beschrijvingen. Door de afbeeldingen van verschillende scènes als invoer te bieden, gecombineerd met tekstgebaseerde controle, genereert ons model overgangsvideo's die samenhang en visuele kwaliteit waarborgen. Bovendien kan het model eenvoudig worden uitgebreid naar verschillende taken, zoals beeld-naar-video animatie en autoregressieve videovoorspelling. Om een uitgebreide evaluatie van deze nieuwe generatieve taak uit te voeren, stellen we drie beoordelingscriteria voor vloeiende en creatieve overgangen voor: temporele consistentie, semantische gelijkenis en video-tekst semantische afstemming. Uitgebreide experimenten valideren de effectiviteit van onze aanpak ten opzichte van bestaande methoden voor generatieve overgangen en voorspellingen, waardoor het mogelijk wordt om story-level lange video's te creëren. Projectpagina: https://vchitect.github.io/SEINE-project/ .
English
Recently video generation has achieved substantial progress with realistic
results. Nevertheless, existing AI-generated videos are usually very short
clips ("shot-level") depicting a single scene. To deliver a coherent long video
("story-level"), it is desirable to have creative transition and prediction
effects across different clips. This paper presents a short-to-long video
diffusion model, SEINE, that focuses on generative transition and prediction.
The goal is to generate high-quality long videos with smooth and creative
transitions between scenes and varying lengths of shot-level videos.
Specifically, we propose a random-mask video diffusion model to automatically
generate transitions based on textual descriptions. By providing the images of
different scenes as inputs, combined with text-based control, our model
generates transition videos that ensure coherence and visual quality.
Furthermore, the model can be readily extended to various tasks such as
image-to-video animation and autoregressive video prediction. To conduct a
comprehensive evaluation of this new generative task, we propose three
assessing criteria for smooth and creative transition: temporal consistency,
semantic similarity, and video-text semantic alignment. Extensive experiments
validate the effectiveness of our approach over existing methods for generative
transition and prediction, enabling the creation of story-level long videos.
Project page: https://vchitect.github.io/SEINE-project/ .