Flowception: Emparejamiento de Flujo de Expansión Temporal para la Generación de Vídeo
Flowception: Temporally Expansive Flow Matching for Video Generation
December 12, 2025
Autores: Tariq Berrada Ifriqi, John Nguyen, Karteek Alahari, Jakob Verbeek, Ricky T. Q. Chen
cs.AI
Resumen
Presentamos Flowception, un novedoso marco de generación de vídeo no autoregresivo y de longitud variable. Flowception aprende una trayectoria de probabilidad que intercala inserciones discretas de fotogramas con desruido continuo de fotogramas. En comparación con los métodos autoregresivos, Flowception mitiga la acumulación/deriva de errores, ya que el mecanismo de inserción de fotogramas durante el muestreo actúa como un mecanismo de compresión eficiente para manejar contextos a largo plazo. En comparación con los flujos de secuencia completa, nuestro método reduce los FLOPS del entrenamiento en un factor de tres, siendo también más adecuado para variantes de atención local y permitiendo aprender la longitud de los vídeos conjuntamente con su contenido. Los resultados experimentales cuantitativos muestran una mejora en las métricas FVD y VBench respecto a los baselines autoregresivos y de secuencia completa, lo cual se valida adicionalmente con resultados cualitativos. Finalmente, al aprender a insertar y desruir fotogramas en una secuencia, Flowception integra de forma transparente diferentes tareas como la generación de imagen a vídeo y la interpolación de vídeo.
English
We present Flowception, a novel non-autoregressive and variable-length video generation framework. Flowception learns a probability path that interleaves discrete frame insertions with continuous frame denoising. Compared to autoregressive methods, Flowception alleviates error accumulation/drift as the frame insertion mechanism during sampling serves as an efficient compression mechanism to handle long-term context. Compared to full-sequence flows, our method reduces FLOPs for training three-fold, while also being more amenable to local attention variants, and allowing to learn the length of videos jointly with their content. Quantitative experimental results show improved FVD and VBench metrics over autoregressive and full-sequence baselines, which is further validated with qualitative results. Finally, by learning to insert and denoise frames in a sequence, Flowception seamlessly integrates different tasks such as image-to-video generation and video interpolation.