SEINE: Modelo de Difusão de Vídeo Curto para Longo para Transição e Previsão Generativa
SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction
October 31, 2023
Autores: Xinyuan Chen, Yaohui Wang, Lingjun Zhang, Shaobin Zhuang, Xin Ma, Jiashuo Yu, Yali Wang, Dahua Lin, Yu Qiao, Ziwei Liu
cs.AI
Resumo
Recentemente, a geração de vídeos alcançou progressos significativos com resultados realistas. No entanto, os vídeos gerados por IA existentes geralmente são clipes muito curtos ("em nível de cena") que retratam uma única cena. Para entregar um vídeo longo e coerente ("em nível de história"), é desejável ter efeitos criativos de transição e previsão entre diferentes clipes. Este artigo apresenta um modelo de difusão de vídeo curto para longo, SEINE, que se concentra em transição e previsão generativa. O objetivo é gerar vídeos longos de alta qualidade com transições suaves e criativas entre cenas e comprimentos variados de vídeos em nível de cena. Especificamente, propomos um modelo de difusão de vídeo com máscara aleatória para gerar automaticamente transições com base em descrições textuais. Ao fornecer as imagens de diferentes cenas como entradas, combinadas com controle baseado em texto, nosso modelo gera vídeos de transição que garantem coerência e qualidade visual. Além disso, o modelo pode ser facilmente estendido para várias tarefas, como animação de imagem para vídeo e previsão de vídeo autoregressiva. Para realizar uma avaliação abrangente dessa nova tarefa generativa, propomos três critérios de avaliação para transição suave e criativa: consistência temporal, similaridade semântica e alinhamento semântico vídeo-texto. Experimentos extensivos validam a eficácia de nossa abordagem em relação aos métodos existentes para transição e previsão generativa, permitindo a criação de vídeos longos em nível de história. Página do projeto: https://vchitect.github.io/SEINE-project/.
English
Recently video generation has achieved substantial progress with realistic
results. Nevertheless, existing AI-generated videos are usually very short
clips ("shot-level") depicting a single scene. To deliver a coherent long video
("story-level"), it is desirable to have creative transition and prediction
effects across different clips. This paper presents a short-to-long video
diffusion model, SEINE, that focuses on generative transition and prediction.
The goal is to generate high-quality long videos with smooth and creative
transitions between scenes and varying lengths of shot-level videos.
Specifically, we propose a random-mask video diffusion model to automatically
generate transitions based on textual descriptions. By providing the images of
different scenes as inputs, combined with text-based control, our model
generates transition videos that ensure coherence and visual quality.
Furthermore, the model can be readily extended to various tasks such as
image-to-video animation and autoregressive video prediction. To conduct a
comprehensive evaluation of this new generative task, we propose three
assessing criteria for smooth and creative transition: temporal consistency,
semantic similarity, and video-text semantic alignment. Extensive experiments
validate the effectiveness of our approach over existing methods for generative
transition and prediction, enabling the creation of story-level long videos.
Project page: https://vchitect.github.io/SEINE-project/ .