SEINE: Modello di diffusione video da breve a lungo per transizione e previsione generativa

Abstract

Recentemente, la generazione di video ha compiuto progressi significativi con risultati realistici. Tuttavia, i video generati dall'IA esistenti sono solitamente clip molto brevi ("a livello di scena") che rappresentano una singola scena. Per ottenere un video lungo e coerente ("a livello di storia"), è auspicabile avere effetti di transizione e previsione creativi tra diversi clip. Questo articolo presenta un modello di diffusione video da breve a lungo, SEINE, che si concentra sulla transizione e previsione generativa. L'obiettivo è generare video lunghi di alta qualità con transizioni fluide e creative tra scene e video di varia durata a livello di scena. Nello specifico, proponiamo un modello di diffusione video con maschera casuale per generare automaticamente transizioni basate su descrizioni testuali. Fornendo le immagini di scene diverse come input, combinate con il controllo basato su testo, il nostro modello genera video di transizione che garantiscono coerenza e qualità visiva. Inoltre, il modello può essere facilmente esteso a vari compiti come l'animazione da immagine a video e la previsione video autoregressiva. Per condurre una valutazione completa di questo nuovo compito generativo, proponiamo tre criteri di valutazione per transizioni fluide e creative: coerenza temporale, somiglianza semantica e allineamento semantico video-testo. Esperimenti estesi convalidano l'efficacia del nostro approccio rispetto ai metodi esistenti per la transizione e previsione generativa, consentendo la creazione di video lunghi a livello di storia. Pagina del progetto: https://vchitect.github.io/SEINE-project/.

English

Recently video generation has achieved substantial progress with realistic results. Nevertheless, existing AI-generated videos are usually very short clips ("shot-level") depicting a single scene. To deliver a coherent long video ("story-level"), it is desirable to have creative transition and prediction effects across different clips. This paper presents a short-to-long video diffusion model, SEINE, that focuses on generative transition and prediction. The goal is to generate high-quality long videos with smooth and creative transitions between scenes and varying lengths of shot-level videos. Specifically, we propose a random-mask video diffusion model to automatically generate transitions based on textual descriptions. By providing the images of different scenes as inputs, combined with text-based control, our model generates transition videos that ensure coherence and visual quality. Furthermore, the model can be readily extended to various tasks such as image-to-video animation and autoregressive video prediction. To conduct a comprehensive evaluation of this new generative task, we propose three assessing criteria for smooth and creative transition: temporal consistency, semantic similarity, and video-text semantic alignment. Extensive experiments validate the effectiveness of our approach over existing methods for generative transition and prediction, enabling the creation of story-level long videos. Project page: https://vchitect.github.io/SEINE-project/ .

SEINE: Modello di diffusione video da breve a lungo per transizione e previsione generativa

SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction

Abstract

Support