ChatPaper.aiChatPaper

FIFO-Diffusion: Het genereren van oneindige video's uit tekst zonder training

FIFO-Diffusion: Generating Infinite Videos from Text without Training

May 19, 2024
Auteurs: Jihwan Kim, Junoh Kang, Jinyoung Choi, Bohyung Han
cs.AI

Samenvatting

Wij stellen een nieuwe inferentietechniek voor, gebaseerd op een vooraf getraind diffusiemodel voor tekstgeconditioneerde videogeneratie. Onze aanpak, genaamd FIFO-Diffusion, is in principe in staat om oneindig lange video's te genereren zonder training. Dit wordt bereikt door iteratief diagonale ruisverwijdering uit te voeren, waarbij een reeks opeenvolgende frames met toenemende ruisniveaus gelijktijdig wordt verwerkt in een wachtrij; onze methode verwijdert een volledig ontruisd frame aan de kop van de wachtrij en voegt een nieuw frame met willekeurige ruis toe aan de staart. Echter, diagonale ruisverwijdering is een tweesnijdend zwaard, aangezien de frames nabij de staart kunnen profiteren van schonere frames door voorwaartse referentie, maar een dergelijke strategie introduceert een discrepantie tussen training en inferentie. Daarom introduceren we latente partitie om de kloof tussen training en inferentie te verkleinen en vooruitkijkende ruisverwijdering om het voordeel van voorwaartse referentie te benutten. We hebben de veelbelovende resultaten en effectiviteit van de voorgestelde methoden aangetoond op bestaande tekst-naar-video generatie-baselines.
English
We propose a novel inference technique based on a pretrained diffusion model for text-conditional video generation. Our approach, called FIFO-Diffusion, is conceptually capable of generating infinitely long videos without training. This is achieved by iteratively performing diagonal denoising, which concurrently processes a series of consecutive frames with increasing noise levels in a queue; our method dequeues a fully denoised frame at the head while enqueuing a new random noise frame at the tail. However, diagonal denoising is a double-edged sword as the frames near the tail can take advantage of cleaner ones by forward reference but such a strategy induces the discrepancy between training and inference. Hence, we introduce latent partitioning to reduce the training-inference gap and lookahead denoising to leverage the benefit of forward referencing. We have demonstrated the promising results and effectiveness of the proposed methods on existing text-to-video generation baselines.
PDF568January 24, 2026