ChatPaper.aiChatPaper

Flowception: Tijdelijk Uitgebreide Flow Matching voor Videogeneratie

Flowception: Temporally Expansive Flow Matching for Video Generation

December 12, 2025
Auteurs: Tariq Berrada Ifriqi, John Nguyen, Karteek Alahari, Jakob Verbeek, Ricky T. Q. Chen
cs.AI

Samenvatting

Wij presenteren Flowception, een nieuw niet-autoregressief raamwerk voor videogeneratie met variabele lengte. Flowception leert een waarschijnlijkheidspad dat discrete frame-invoegingen verweeft met continue frame-denoising. In vergelijking met autoregressieve methoden vermindert Flowception foutaccumulatie/drift, doordat het frame-invoegmechanisme tijdens de bemonstering dient als een efficiënt compressiemechanisme voor het verwerken van context op lange termijn. Vergeleken met full-sequence flows reduceert onze methode de FLOPs voor training met een factor drie, is zij tegelijkertijd beter geschikt voor varianten met lokale aandacht, en maakt zij het mogelijk de lengte van video's gezamenlijk met hun inhoud te leren. Kwantitatieve experimentele resultaten tonen verbeterde FVD- en VBench-metrics ten opzichte van autoregressieve en full-sequence baseline-methoden, wat verder wordt bevestigd door kwalitatieve resultaten. Ten slotte integreert Flowception, door het leren invoegen en denoisen van frames in een sequentie, naadloos verschillende taken zoals beeld-naar-videogeneratie en video-interpolatie.
English
We present Flowception, a novel non-autoregressive and variable-length video generation framework. Flowception learns a probability path that interleaves discrete frame insertions with continuous frame denoising. Compared to autoregressive methods, Flowception alleviates error accumulation/drift as the frame insertion mechanism during sampling serves as an efficient compression mechanism to handle long-term context. Compared to full-sequence flows, our method reduces FLOPs for training three-fold, while also being more amenable to local attention variants, and allowing to learn the length of videos jointly with their content. Quantitative experimental results show improved FVD and VBench metrics over autoregressive and full-sequence baselines, which is further validated with qualitative results. Finally, by learning to insert and denoise frames in a sequence, Flowception seamlessly integrates different tasks such as image-to-video generation and video interpolation.
PDF32December 22, 2025