ChatPaper.aiChatPaper

Flowception: Zeitlich erweiterndes Flow Matching zur Videogenerierung

Flowception: Temporally Expansive Flow Matching for Video Generation

December 12, 2025
papers.authors: Tariq Berrada Ifriqi, John Nguyen, Karteek Alahari, Jakob Verbeek, Ricky T. Q. Chen
cs.AI

papers.abstract

Wir stellen Flowception vor, ein neuartiges nicht-autoregressives Framework zur Erzeugung von Videos variabler Länge. Flowception erlernt einen Wahrscheinlichkeitspfad, der diskrete Frame-Einfügungen mit kontinuierlicher Frame-Entrauschung verschachtelt. Im Vergleich zu autoregressiven Methoden mildert Flowception die Fehlerakkumulation und -drift, da der Frame-Einfügemechanismus während des Samplings als effiziente Kompressionsmethode zur Handhabung langfristiger Kontexte dient. Verglichen mit Flows für vollständige Sequenzen reduziert unsere Methode die FLOPs für das Training um das Dreifache, ist zudem besser für Varianten mit lokaler Aufmerksamkeit geeignet und ermöglicht es, die Länge von Videos gemeinsam mit ihrem Inhalt zu erlernen. Quantitative experimentelle Ergebnisse zeigen verbesserte FVD- und VBench-Metriken gegenüber autoregressiven und Vollsequenz-Baselines, was durch qualitative Ergebnisse weiter untermauert wird. Schließlich integriert Flowception durch das Erlernen des Einfügens und Entrauschens von Frames in einer Sequenz nahtlos verschiedene Aufgaben wie Bild-zu-Video-Generierung und Video-Interpolation.
English
We present Flowception, a novel non-autoregressive and variable-length video generation framework. Flowception learns a probability path that interleaves discrete frame insertions with continuous frame denoising. Compared to autoregressive methods, Flowception alleviates error accumulation/drift as the frame insertion mechanism during sampling serves as an efficient compression mechanism to handle long-term context. Compared to full-sequence flows, our method reduces FLOPs for training three-fold, while also being more amenable to local attention variants, and allowing to learn the length of videos jointly with their content. Quantitative experimental results show improved FVD and VBench metrics over autoregressive and full-sequence baselines, which is further validated with qualitative results. Finally, by learning to insert and denoise frames in a sequence, Flowception seamlessly integrates different tasks such as image-to-video generation and video interpolation.
PDF32December 17, 2025