SEINE: Modelo de Difusión de Video Corto a Largo para Transición y Predicción Generativa
SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction
October 31, 2023
Autores: Xinyuan Chen, Yaohui Wang, Lingjun Zhang, Shaobin Zhuang, Xin Ma, Jiashuo Yu, Yali Wang, Dahua Lin, Yu Qiao, Ziwei Liu
cs.AI
Resumen
Recientemente, la generación de videos ha logrado avances significativos con resultados realistas. Sin embargo, los videos generados por IA existentes suelen ser clips muy cortos ("a nivel de toma") que representan una sola escena. Para ofrecer un video largo coherente ("a nivel de historia"), es deseable contar con efectos de transición y predicción creativos entre diferentes clips. Este artículo presenta un modelo de difusión de video corto a largo, SEINE, que se centra en la transición y predicción generativa. El objetivo es generar videos largos de alta calidad con transiciones fluidas y creativas entre escenas y videos de toma de duración variable. Específicamente, proponemos un modelo de difusión de video con máscara aleatoria para generar automáticamente transiciones basadas en descripciones textuales. Al proporcionar las imágenes de diferentes escenas como entradas, combinadas con control basado en texto, nuestro modelo genera videos de transición que garantizan coherencia y calidad visual. Además, el modelo puede extenderse fácilmente a diversas tareas, como animación de imagen a video y predicción de video autorregresiva. Para realizar una evaluación exhaustiva de esta nueva tarea generativa, proponemos tres criterios de evaluación para transiciones fluidas y creativas: consistencia temporal, similitud semántica y alineación semántica entre video y texto. Experimentos extensos validan la efectividad de nuestro enfoque sobre los métodos existentes para transición y predicción generativa, permitiendo la creación de videos largos a nivel de historia. Página del proyecto: https://vchitect.github.io/SEINE-project/.
English
Recently video generation has achieved substantial progress with realistic
results. Nevertheless, existing AI-generated videos are usually very short
clips ("shot-level") depicting a single scene. To deliver a coherent long video
("story-level"), it is desirable to have creative transition and prediction
effects across different clips. This paper presents a short-to-long video
diffusion model, SEINE, that focuses on generative transition and prediction.
The goal is to generate high-quality long videos with smooth and creative
transitions between scenes and varying lengths of shot-level videos.
Specifically, we propose a random-mask video diffusion model to automatically
generate transitions based on textual descriptions. By providing the images of
different scenes as inputs, combined with text-based control, our model
generates transition videos that ensure coherence and visual quality.
Furthermore, the model can be readily extended to various tasks such as
image-to-video animation and autoregressive video prediction. To conduct a
comprehensive evaluation of this new generative task, we propose three
assessing criteria for smooth and creative transition: temporal consistency,
semantic similarity, and video-text semantic alignment. Extensive experiments
validate the effectiveness of our approach over existing methods for generative
transition and prediction, enabling the creation of story-level long videos.
Project page: https://vchitect.github.io/SEINE-project/ .