FreeNoise: Generazione di Video Più Lunghi Senza Ottimizzazione Tramite Ripianificazione del Rumore
FreeNoise: Tuning-Free Longer Video Diffusion Via Noise Rescheduling
October 23, 2023
Autori: Haonan Qiu, Menghan Xia, Yong Zhang, Yingqing He, Xintao Wang, Ying Shan, Ziwei Liu
cs.AI
Abstract
Con la disponibilità di grandi dataset video e i progressi nei modelli di diffusione, la generazione di video guidata da testo ha compiuto significativi passi avanti. Tuttavia, i modelli esistenti per la generazione di video sono tipicamente addestrati su un numero limitato di fotogrammi, il che si traduce nell'incapacità di generare video lunghi ad alta fedeltà durante l'inferenza. Inoltre, questi modelli supportano solo condizioni di testo singolo, mentre scenari reali spesso richiedono condizioni di testo multiplo man mano che il contenuto del video cambia nel tempo. Per affrontare queste sfide, questo studio esplora il potenziale di estendere la capacità guidata da testo per generare video più lunghi condizionati da più testi. 1) Inizialmente analizziamo l'impatto del rumore iniziale nei modelli di diffusione video. Basandoci sull'osservazione del rumore, proponiamo FreeNoise, un paradigma senza necessità di tuning e ad alta efficienza temporale per migliorare le capacità generative dei modelli di diffusione video pre-addestrati, preservando la coerenza del contenuto. Nello specifico, invece di inizializzare il rumore per tutti i fotogrammi, riprogrammiamo una sequenza di rumori per una correlazione a lungo raggio e applichiamo un'attenzione temporale su di essi mediante una funzione basata su finestre. 2) Inoltre, progettiamo un nuovo metodo di iniezione del movimento per supportare la generazione di video condizionati da più prompt testuali. Esperimenti estesi convalidano la superiorità del nostro paradigma nell'estendere le capacità generative dei modelli di diffusione video. È degno di nota che, rispetto al metodo precedente con le migliori prestazioni che comportava un costo temporale aggiuntivo del 255%, il nostro metodo comporta solo un costo temporale trascurabile di circa il 17%. I campioni video generati sono disponibili sul nostro sito web: http://haonanqiu.com/projects/FreeNoise.html.
English
With the availability of large-scale video datasets and the advances of
diffusion models, text-driven video generation has achieved substantial
progress. However, existing video generation models are typically trained on a
limited number of frames, resulting in the inability to generate high-fidelity
long videos during inference. Furthermore, these models only support
single-text conditions, whereas real-life scenarios often require multi-text
conditions as the video content changes over time. To tackle these challenges,
this study explores the potential of extending the text-driven capability to
generate longer videos conditioned on multiple texts. 1) We first analyze the
impact of initial noise in video diffusion models. Then building upon the
observation of noise, we propose FreeNoise, a tuning-free and time-efficient
paradigm to enhance the generative capabilities of pretrained video diffusion
models while preserving content consistency. Specifically, instead of
initializing noises for all frames, we reschedule a sequence of noises for
long-range correlation and perform temporal attention over them by window-based
function. 2) Additionally, we design a novel motion injection method to support
the generation of videos conditioned on multiple text prompts. Extensive
experiments validate the superiority of our paradigm in extending the
generative capabilities of video diffusion models. It is noteworthy that
compared with the previous best-performing method which brought about 255%
extra time cost, our method incurs only negligible time cost of approximately
17%. Generated video samples are available at our website:
http://haonanqiu.com/projects/FreeNoise.html.