FIFO-Diffusion : Génération de vidéos infinies à partir de texte sans entraînementFIFO-Diffusion: Generating Infinite Videos from Text without Training
Nous proposons une nouvelle technique d'inférence basée sur un modèle de diffusion pré-entraîné pour la génération de vidéos conditionnées par du texte. Notre approche, appelée FIFO-Diffusion, est conceptuellement capable de générer des vidéos de longueur infinie sans entraînement supplémentaire. Cela est réalisé en effectuant itérativement un débruîtage diagonal, qui traite simultanément une série de trames consécutives avec des niveaux de bruit croissants dans une file d'attente ; notre méthode retire une trame entièrement débruîtée en tête de file tout en ajoutant une nouvelle trame de bruit aléatoire en queue. Cependant, le débruîtage diagonal est une arme à double tranchant, car les trames proches de la queue peuvent tirer parti de trames plus propres par référence avant, mais une telle stratégie induit un écart entre l'entraînement et l'inférence. Par conséquent, nous introduisons le partitionnement latent pour réduire cet écart et le débruîtage prospectif pour exploiter les avantages de la référence avant. Nous avons démontré les résultats prometteurs et l'efficacité des méthodes proposées sur des bases de référence existantes pour la génération de texte à vidéo.