ChatPaper.aiChatPaper

Flowception: 時間的に拡張可能なフローマッチングによるビデオ生成

Flowception: Temporally Expansive Flow Matching for Video Generation

December 12, 2025
著者: Tariq Berrada Ifriqi, John Nguyen, Karteek Alahari, Jakob Verbeek, Ricky T. Q. Chen
cs.AI

要旨

我々は、新しい非自己回帰型で可変長のビデオ生成フレームワークであるFlowceptionを提案する。Flowceptionは、離散的なフレーム挿入と連続的なフレームノイズ除去を交互に行う確率経路を学習する。自己回帰型手法と比較して、Flowceptionはサンプリング時のフレーム挿入メカニズムが長期コンテキストを扱う効率的な圧縮機構として機能するため、誤差の蓄積/ドリフトを軽減する。完全系列フローと比較して、本手法は訓練時のFLOPsを3分の1に削減し、局所的な注意機構の変種への適応性が高く、動画の長さを内容と同時に学習できる。定量的実験結果では、自己回帰型および完全系列ベースラインを上回るFVDとVBenchの指標改善が示され、定性結果によりさらに検証されている。最後に、フレームの挿入とノイズ除去を系列内で学習することにより、Flowceptionは画像から動画への生成や動画補間といった異なるタスクをシームレスに統合する。
English
We present Flowception, a novel non-autoregressive and variable-length video generation framework. Flowception learns a probability path that interleaves discrete frame insertions with continuous frame denoising. Compared to autoregressive methods, Flowception alleviates error accumulation/drift as the frame insertion mechanism during sampling serves as an efficient compression mechanism to handle long-term context. Compared to full-sequence flows, our method reduces FLOPs for training three-fold, while also being more amenable to local attention variants, and allowing to learn the length of videos jointly with their content. Quantitative experimental results show improved FVD and VBench metrics over autoregressive and full-sequence baselines, which is further validated with qualitative results. Finally, by learning to insert and denoise frames in a sequence, Flowception seamlessly integrates different tasks such as image-to-video generation and video interpolation.
PDF32December 17, 2025