FIFO-Diffusion : Génération de vidéos infinies à partir de texte sans entraînement
FIFO-Diffusion: Generating Infinite Videos from Text without Training
May 19, 2024
Auteurs: Jihwan Kim, Junoh Kang, Jinyoung Choi, Bohyung Han
cs.AI
Résumé
Nous proposons une nouvelle technique d'inférence basée sur un modèle de diffusion pré-entraîné pour la génération de vidéos conditionnées par du texte. Notre approche, appelée FIFO-Diffusion, est conceptuellement capable de générer des vidéos de longueur infinie sans entraînement supplémentaire. Cela est réalisé en effectuant itérativement un débruîtage diagonal, qui traite simultanément une série de trames consécutives avec des niveaux de bruit croissants dans une file d'attente ; notre méthode retire une trame entièrement débruîtée en tête de file tout en ajoutant une nouvelle trame de bruit aléatoire en queue. Cependant, le débruîtage diagonal est une arme à double tranchant, car les trames proches de la queue peuvent tirer parti de trames plus propres par référence avant, mais une telle stratégie induit un écart entre l'entraînement et l'inférence. Par conséquent, nous introduisons le partitionnement latent pour réduire cet écart et le débruîtage prospectif pour exploiter les avantages de la référence avant. Nous avons démontré les résultats prometteurs et l'efficacité des méthodes proposées sur des bases de référence existantes pour la génération de texte à vidéo.
English
We propose a novel inference technique based on a pretrained diffusion model
for text-conditional video generation. Our approach, called FIFO-Diffusion, is
conceptually capable of generating infinitely long videos without training.
This is achieved by iteratively performing diagonal denoising, which
concurrently processes a series of consecutive frames with increasing noise
levels in a queue; our method dequeues a fully denoised frame at the head while
enqueuing a new random noise frame at the tail. However, diagonal denoising is
a double-edged sword as the frames near the tail can take advantage of cleaner
ones by forward reference but such a strategy induces the discrepancy between
training and inference. Hence, we introduce latent partitioning to reduce the
training-inference gap and lookahead denoising to leverage the benefit of
forward referencing. We have demonstrated the promising results and
effectiveness of the proposed methods on existing text-to-video generation
baselines.Summary
AI-Generated Summary