ChatPaper.aiChatPaper

Flowception: Adattamento del Flusso Temporalmente Espansivo per la Generazione Video

Flowception: Temporally Expansive Flow Matching for Video Generation

December 12, 2025
Autori: Tariq Berrada Ifriqi, John Nguyen, Karteek Alahari, Jakob Verbeek, Ricky T. Q. Chen
cs.AI

Abstract

Presentiamo Flowception, un innovativo framework di generazione video non autoregressivo e a lunghezza variabile. Flowception apprende un percorso probabilistico che intercala inserimenti discreti di frame con operazioni di denoising continuo dei frame. Rispetto ai metodi autoregressivi, Flowception mitiga l'accumulo e la deriva dell'errore, poiché il meccanismo di inserimento frame durante il campionamento funge da efficiente meccanismo di compressione per gestire il contesto a lungo termine. Rispetto ai flussi a sequenza completa, il nostro metodo riduce i FLOP per l'addestramento di tre volte, risultando al contempo più adatto a varianti di attenzione locale e consentendo di apprendere congiuntamente la lunghezza dei video e il loro contenuto. I risultati sperimentali quantitativi mostrano metriche FVD e VBench migliorate rispetto ai baseline autoregressivi e a sequenza completa, il che è ulteriormente validato da risultati qualitativi. Infine, apprendendo come inserire e applicare il denoising ai frame in una sequenza, Flowception integra perfettamente diverse attività come la generazione da immagine a video e l'interpolazione video.
English
We present Flowception, a novel non-autoregressive and variable-length video generation framework. Flowception learns a probability path that interleaves discrete frame insertions with continuous frame denoising. Compared to autoregressive methods, Flowception alleviates error accumulation/drift as the frame insertion mechanism during sampling serves as an efficient compression mechanism to handle long-term context. Compared to full-sequence flows, our method reduces FLOPs for training three-fold, while also being more amenable to local attention variants, and allowing to learn the length of videos jointly with their content. Quantitative experimental results show improved FVD and VBench metrics over autoregressive and full-sequence baselines, which is further validated with qualitative results. Finally, by learning to insert and denoise frames in a sequence, Flowception seamlessly integrates different tasks such as image-to-video generation and video interpolation.
PDF32December 19, 2025