Flowception : Appariement de flux à expansion temporelle pour la génération vidéo
Flowception: Temporally Expansive Flow Matching for Video Generation
December 12, 2025
papers.authors: Tariq Berrada Ifriqi, John Nguyen, Karteek Alahari, Jakob Verbeek, Ricky T. Q. Chen
cs.AI
papers.abstract
Nous présentons Flowception, un nouveau cadre de génération vidéo non autorégressif et à longueur variable. Flowception apprend un chemin de probabilité qui entrelace des insertions de trames discrètes avec un débruitage continu de trames. Comparé aux méthodes autorégressives, Flowception atténue l'accumulation/dérive d'erreurs car le mécanisme d'insertion de trames pendant l'échantillonnage sert de mécanisme de compression efficace pour gérer le contexte à long terme. Comparé aux flux de séquence complète, notre méthode réduit les FLOPs d'entraînement d'un facteur trois, tout en étant plus adaptée aux variantes d'attention locale et en permettant d'apprendre conjointement la longueur des vidéos et leur contenu. Les résultats expérimentaux quantitatifs montrent une amélioration des métriques FVD et VBench par rapport aux modèles de référence autorégressifs et à séquence complète, ce qui est en outre validé par des résultats qualitatifs. Enfin, en apprenant à insérer et à débruiter des trames dans une séquence, Flowception intègre de manière transparente différentes tâches telles que la génération image-à-vidéo et l'interpolation vidéo.
English
We present Flowception, a novel non-autoregressive and variable-length video generation framework. Flowception learns a probability path that interleaves discrete frame insertions with continuous frame denoising. Compared to autoregressive methods, Flowception alleviates error accumulation/drift as the frame insertion mechanism during sampling serves as an efficient compression mechanism to handle long-term context. Compared to full-sequence flows, our method reduces FLOPs for training three-fold, while also being more amenable to local attention variants, and allowing to learn the length of videos jointly with their content. Quantitative experimental results show improved FVD and VBench metrics over autoregressive and full-sequence baselines, which is further validated with qualitative results. Finally, by learning to insert and denoise frames in a sequence, Flowception seamlessly integrates different tasks such as image-to-video generation and video interpolation.