FreeLong: Generazione di Video Lunghi Senza Addestramento con Attenzione Temporale SpectralBlend
FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention
July 29, 2024
Autori: Yu Lu, Yuanzhi Liang, Linchao Zhu, Yi Yang
cs.AI
Abstract
I modelli di diffusione video hanno compiuto progressi significativi in varie applicazioni di generazione video. Tuttavia, l'addestramento di modelli per compiti di generazione di video lunghi richiede risorse computazionali e dati considerevoli, rappresentando una sfida per lo sviluppo di modelli di diffusione video lunghi. Questo articolo esamina un approccio semplice e privo di addestramento per estendere un modello di diffusione video breve esistente (ad esempio, pre-addestrato su video di 16 fotogrammi) per la generazione coerente di video lunghi (ad esempio, 128 fotogrammi). La nostra osservazione preliminare ha rilevato che l'applicazione diretta del modello di diffusione video breve per generare video lunghi può portare a un grave degrado della qualità video. Un'ulteriore indagine rivela che questo degrado è principalmente dovuto alla distorsione delle componenti ad alta frequenza nei video lunghi, caratterizzata da una diminuzione delle componenti spaziali ad alta frequenza e un aumento delle componenti temporali ad alta frequenza. Motivati da ciò, proponiamo una soluzione innovativa denominata FreeLong per bilanciare la distribuzione di frequenza delle caratteristiche dei video lunghi durante il processo di denoising. FreeLong combina le componenti a bassa frequenza delle caratteristiche video globali, che racchiudono l'intera sequenza video, con le componenti ad alta frequenza delle caratteristiche video locali che si concentrano su sottosequenze più brevi di fotogrammi. Questo approccio mantiene la coerenza globale incorporando dettagli spaziotemporali diversificati e di alta qualità dai video locali, migliorando sia la coerenza che la fedeltà della generazione di video lunghi. Abbiamo valutato FreeLong su più modelli di base di diffusione video e abbiamo osservato miglioramenti significativi. Inoltre, il nostro metodo supporta la generazione coerente multi-prompt, garantendo sia la coerenza visiva che transizioni fluide tra le scene.
English
Video diffusion models have made substantial progress in various video
generation applications. However, training models for long video generation
tasks require significant computational and data resources, posing a challenge
to developing long video diffusion models. This paper investigates a
straightforward and training-free approach to extend an existing short video
diffusion model (e.g. pre-trained on 16-frame videos) for consistent long video
generation (e.g. 128 frames). Our preliminary observation has found that
directly applying the short video diffusion model to generate long videos can
lead to severe video quality degradation. Further investigation reveals that
this degradation is primarily due to the distortion of high-frequency
components in long videos, characterized by a decrease in spatial
high-frequency components and an increase in temporal high-frequency
components. Motivated by this, we propose a novel solution named FreeLong to
balance the frequency distribution of long video features during the denoising
process. FreeLong blends the low-frequency components of global video features,
which encapsulate the entire video sequence, with the high-frequency components
of local video features that focus on shorter subsequences of frames. This
approach maintains global consistency while incorporating diverse and
high-quality spatiotemporal details from local videos, enhancing both the
consistency and fidelity of long video generation. We evaluated FreeLong on
multiple base video diffusion models and observed significant improvements.
Additionally, our method supports coherent multi-prompt generation, ensuring
both visual coherence and seamless transitions between scenes.