ChatPaper.aiChatPaper

FIFO-Diffusion: Generazione di Video Infiniti da Testo Senza Addestramento

FIFO-Diffusion: Generating Infinite Videos from Text without Training

May 19, 2024
Autori: Jihwan Kim, Junoh Kang, Jinyoung Choi, Bohyung Han
cs.AI

Abstract

Proponiamo una tecnica innovativa di inferenza basata su un modello di diffusione preaddestrato per la generazione di video condizionati da testo. Il nostro approccio, denominato FIFO-Diffusion, è concettualmente in grado di generare video di lunghezza infinita senza necessità di addestramento. Questo risultato è ottenuto eseguendo iterativamente un processo di denoising diagonale, che elabora contemporaneamente una serie di fotogrammi consecutivi con livelli di rumore crescenti in una coda; il nostro metodo rimuove un fotogramma completamente denoisato dalla testa della coda mentre aggiunge un nuovo fotogramma con rumore casuale alla coda. Tuttavia, il denoising diagonale è un'arma a doppio taglio, poiché i fotogrammi vicini alla coda possono trarre vantaggio da quelli più puliti attraverso un riferimento in avanti, ma tale strategia introduce una discrepanza tra addestramento e inferenza. Pertanto, introduciamo il partizionamento latente per ridurre il divario tra addestramento e inferenza e il denoising anticipato per sfruttare i benefici del riferimento in avanti. Abbiamo dimostrato i risultati promettenti e l'efficacia dei metodi proposti sui benchmark esistenti per la generazione di video da testo.
English
We propose a novel inference technique based on a pretrained diffusion model for text-conditional video generation. Our approach, called FIFO-Diffusion, is conceptually capable of generating infinitely long videos without training. This is achieved by iteratively performing diagonal denoising, which concurrently processes a series of consecutive frames with increasing noise levels in a queue; our method dequeues a fully denoised frame at the head while enqueuing a new random noise frame at the tail. However, diagonal denoising is a double-edged sword as the frames near the tail can take advantage of cleaner ones by forward reference but such a strategy induces the discrepancy between training and inference. Hence, we introduce latent partitioning to reduce the training-inference gap and lookahead denoising to leverage the benefit of forward referencing. We have demonstrated the promising results and effectiveness of the proposed methods on existing text-to-video generation baselines.
PDF568January 24, 2026