Flowception: 시간적으로 확장된 흐름 매칭을 통한 비디오 생성
Flowception: Temporally Expansive Flow Matching for Video Generation
December 12, 2025
저자: Tariq Berrada Ifriqi, John Nguyen, Karteek Alahari, Jakob Verbeek, Ricky T. Q. Chen
cs.AI
초록
Flowception은 새로운 비자기회귀(non-autoregressive) 및 가변 길이 비디오 생성 프레임워크입니다. Flowception은 이산적인 프레임 삽입과 연속적인 프레임 잡음 제거를 교차하는 확률 경로(probability path)를 학습합니다. 자기회귀 방법론과 비교했을 때, Flowception은 샘플링 과정에서의 프레임 삽입 메커니즘이 장기 맥락을 처리하는 효율적인 압축 메커니즘으로 작용하여 오류 누적/드리프트(error accumulation/drift)를 완화합니다. 전체 시퀀스 흐름(full-sequence flows) 방법론과 비교했을 때, 우리의 방법은 학습 시 FLOPs를 3분의 1로 줄이면서도 지역적 주의(local attention) 변형에 더욱 적합하고, 비디오의 내용과 함께 그 길이를 함께 학습할 수 있도록 합니다. 정량적 실험 결과는 자기회귀 및 전체 시퀀스 기준선(baselines) 대비 향상된 FVD 및 VBench 지표를 보여주며, 이는 정성적 결과를 통해 추가로 입증됩니다. 마지막으로, 프레임 삽입 및 잡음 제거를 순차적으로 학습함으로써 Flowception은 이미지-비디오 생성 및 비디오 보간과 같은 다양한 작업을 원활하게 통합합니다.
English
We present Flowception, a novel non-autoregressive and variable-length video generation framework. Flowception learns a probability path that interleaves discrete frame insertions with continuous frame denoising. Compared to autoregressive methods, Flowception alleviates error accumulation/drift as the frame insertion mechanism during sampling serves as an efficient compression mechanism to handle long-term context. Compared to full-sequence flows, our method reduces FLOPs for training three-fold, while also being more amenable to local attention variants, and allowing to learn the length of videos jointly with their content. Quantitative experimental results show improved FVD and VBench metrics over autoregressive and full-sequence baselines, which is further validated with qualitative results. Finally, by learning to insert and denoise frames in a sequence, Flowception seamlessly integrates different tasks such as image-to-video generation and video interpolation.