ChatPaper.aiChatPaper

FIFO-Diffusion: Generierung unendlicher Videos aus Text ohne Training

FIFO-Diffusion: Generating Infinite Videos from Text without Training

May 19, 2024
Autoren: Jihwan Kim, Junoh Kang, Jinyoung Choi, Bohyung Han
cs.AI

Zusammenfassung

Wir schlagen eine neuartige Inferenztechnik auf Basis eines vortrainierten Diffusionsmodells für die textbedingte Videogenerierung vor. Unser Ansatz, genannt FIFO-Diffusion, ist konzeptionell in der Lage, unendlich lange Videos ohne Training zu generieren. Dies wird erreicht, indem iterativ eine diagonale Rauschunterdrückung durchgeführt wird, die eine Reihe aufeinanderfolgender Frames mit zunehmenden Rauschniveaus in einer Warteschlange verarbeitet; unsere Methode entfernt ein vollständig rauschfreies Frame am Anfang, während sie gleichzeitig ein neues zufälliges Rauschframe am Ende einreiht. Diagonale Rauschunterdrückung ist jedoch ein zweischneidiges Schwert, da die Frames in der Nähe des Endes von saubereren Frames durch Vorwärtsreferenzierung profitieren können, aber eine solche Strategie die Diskrepanz zwischen Training und Inferenz verursacht. Daher führen wir latente Partitionierung ein, um die Kluft zwischen Training und Inferenz zu verringern, und Vorausschauende Rauschunterdrückung, um den Vorteil der Vorwärtsreferenzierung zu nutzen. Wir haben vielversprechende Ergebnisse und die Wirksamkeit der vorgeschlagenen Methoden an bestehenden Baselines zur Text-zu-Video-Generierung demonstriert.
English
We propose a novel inference technique based on a pretrained diffusion model for text-conditional video generation. Our approach, called FIFO-Diffusion, is conceptually capable of generating infinitely long videos without training. This is achieved by iteratively performing diagonal denoising, which concurrently processes a series of consecutive frames with increasing noise levels in a queue; our method dequeues a fully denoised frame at the head while enqueuing a new random noise frame at the tail. However, diagonal denoising is a double-edged sword as the frames near the tail can take advantage of cleaner ones by forward reference but such a strategy induces the discrepancy between training and inference. Hence, we introduce latent partitioning to reduce the training-inference gap and lookahead denoising to leverage the benefit of forward referencing. We have demonstrated the promising results and effectiveness of the proposed methods on existing text-to-video generation baselines.

Summary

AI-Generated Summary

PDF588December 15, 2024