ExVideo: Estensione dei Modelli di Diffusione Video tramite Ottimizzazione Parametrica Efficiente
ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning
June 20, 2024
Autori: Zhongjie Duan, Wenmeng Zhou, Cen Chen, Yaliang Li, Weining Qian
cs.AI
Abstract
Recentemente, i progressi nella sintesi video hanno attirato una significativa attenzione. Modelli di sintesi video come AnimateDiff e Stable Video Diffusion hanno dimostrato l'applicabilità pratica dei modelli di diffusione nella creazione di contenuti visivi dinamici. L'emergere di SORA ha ulteriormente evidenziato il potenziale delle tecnologie di generazione video. Tuttavia, l'estensione della durata dei video è stata limitata dalle restrizioni nelle risorse computazionali. La maggior parte dei modelli di sintesi video esistenti può generare solo brevi clip video. In questo articolo, proponiamo una nuova metodologia di post-tuning per i modelli di sintesi video, chiamata ExVideo. Questo approccio è progettato per migliorare la capacità dei modelli di sintesi video attuali, consentendo loro di produrre contenuti per durate temporali più estese con minori costi di addestramento. In particolare, progettiamo strategie di estensione per le architetture temporali comuni, rispettivamente, tra cui convoluzione 3D, attenzione temporale e incorporamento posizionale. Per valutare l'efficacia del nostro approccio di post-tuning proposto, conduciamo un addestramento di estensione sul modello Stable Video Diffusion. Il nostro approccio aumenta la capacità del modello di generare fino a 5 volte il numero originale di fotogrammi, richiedendo solo 1,5k ore di addestramento su GPU su un dataset composto da 40k video. È importante sottolineare che il notevole aumento della durata del video non compromette le capacità intrinseche di generalizzazione del modello, e il modello dimostra i suoi vantaggi nella generazione di video di stili e risoluzioni diverse. Rilasceremo pubblicamente il codice sorgente e il modello potenziato.
English
Recently, advancements in video synthesis have attracted significant
attention. Video synthesis models such as AnimateDiff and Stable Video
Diffusion have demonstrated the practical applicability of diffusion models in
creating dynamic visual content. The emergence of SORA has further spotlighted
the potential of video generation technologies. Nonetheless, the extension of
video lengths has been constrained by the limitations in computational
resources. Most existing video synthesis models can only generate short video
clips. In this paper, we propose a novel post-tuning methodology for video
synthesis models, called ExVideo. This approach is designed to enhance the
capability of current video synthesis models, allowing them to produce content
over extended temporal durations while incurring lower training expenditures.
In particular, we design extension strategies across common temporal model
architectures respectively, including 3D convolution, temporal attention, and
positional embedding. To evaluate the efficacy of our proposed post-tuning
approach, we conduct extension training on the Stable Video Diffusion model.
Our approach augments the model's capacity to generate up to 5times its
original number of frames, requiring only 1.5k GPU hours of training on a
dataset comprising 40k videos. Importantly, the substantial increase in video
length doesn't compromise the model's innate generalization capabilities, and
the model showcases its advantages in generating videos of diverse styles and
resolutions. We will release the source code and the enhanced model publicly.