ChatPaper.aiChatPaper

STARFlow-V: End-to-End Videogenerierung mit Normalizing Flows

STARFlow-V: End-to-End Video Generative Modeling with Normalizing Flow

November 25, 2025
papers.authors: Jiatao Gu, Ying Shen, Tianrong Chen, Laurent Dinh, Yuyang Wang, Miguel Angel Bautista, David Berthelot, Josh Susskind, Shuangfei Zhai
cs.AI

papers.abstract

Normalizing Flows (NFs) sind end-to-end likelihood-basierte generative Modelle für kontinuierliche Daten und haben in letzter Zeit mit ermutigenden Fortschritten in der Bildgenerierung wieder an Aufmerksamkeit gewonnen. Im Bereich der Videogenerierung jedoch, wo die raumzeitliche Komplexität und die Rechenkosten erheblich höher sind, setzen state-of-the-art Systeme fast ausschließlich auf diffusionsbasierte Modelle. In dieser Arbeit untersuchen wir diesen Gestaltungsspielraum erneut, indem wir STARFlow-V vorstellen, einen videobasierten Generator auf Basis von Normalizing Flows mit wesentlichen Vorteilen wie End-to-End-Lernen, robuster kausaler Vorhersage und nativer Likelihood-Schätzung. Aufbauend auf dem kürzlich vorgeschlagenen STARFlow operiert STARFlow-V in einem raumzeitlichen latenten Raum mit einer Global-Local-Architektur, die kausale Abhängigkeiten auf einen globalen latenten Raum beschränkt, während gleichzeitig reichhaltige lokale Interaktionen innerhalb eines Frames erhalten bleiben. Dies mildert die Fehlerakkumulation über die Zeit ab, eine häufige Schwäche der standardmäßigen autoregressiven Generierung mit Diffusionsmodellen. Zusätzlich schlagen wir Flow-Score-Matching vor, das das Modell mit einem leichtgewichtigen kausalen Entrauscher ausstattet, um die Konsistenz der Videogenerierung auf autoregressive Weise zu verbessern. Um die Abtasteffizienz zu steigern, setzt STARFlow-V ein videobewusstes Jacobi-Iterationsschema ein, das interne Updates in parallelisierbare Iterationen umwandelt, ohne die Kausalität zu verletzen. Dank der invertierbaren Struktur kann dasselbe Modell nativ Text-zu-Video-, Bild-zu-Video- sowie Video-zu-Video-Generierungsaufgaben unterstützen. Empirisch erreicht STARFlow-V eine hohe visuelle Qualität und zeitliche Konsistenz bei praktikabler Abtastrate im Vergleich zu diffusionsbasierten Baseline-Modellen. Diese Ergebnisse stellen, soweit uns bekannt ist, den ersten Beleg dafür dar, dass NFs in der Lage sind, hochwertige autoregressive Videogenerierung durchzuführen, und etablieren sie als vielversprechende Forschungsrichtung für den Aufbau von Weltmodellen. Code und generierte Beispiele sind verfügbar unter https://github.com/apple/ml-starflow.
English
Normalizing flows (NFs) are end-to-end likelihood-based generative models for continuous data, and have recently regained attention with encouraging progress on image generation. Yet in the video generation domain, where spatiotemporal complexity and computational cost are substantially higher, state-of-the-art systems almost exclusively rely on diffusion-based models. In this work, we revisit this design space by presenting STARFlow-V, a normalizing flow-based video generator with substantial benefits such as end-to-end learning, robust causal prediction, and native likelihood estimation. Building upon the recently proposed STARFlow, STARFlow-V operates in the spatiotemporal latent space with a global-local architecture which restricts causal dependencies to a global latent space while preserving rich local within-frame interactions. This eases error accumulation over time, a common pitfall of standard autoregressive diffusion model generation. Additionally, we propose flow-score matching, which equips the model with a light-weight causal denoiser to improve the video generation consistency in an autoregressive fashion. To improve the sampling efficiency, STARFlow-V employs a video-aware Jacobi iteration scheme that recasts inner updates as parallelizable iterations without breaking causality. Thanks to the invertible structure, the same model can natively support text-to-video, image-to-video as well as video-to-video generation tasks. Empirically, STARFlow-V achieves strong visual fidelity and temporal consistency with practical sampling throughput relative to diffusion-based baselines. These results present the first evidence, to our knowledge, that NFs are capable of high-quality autoregressive video generation, establishing them as a promising research direction for building world models. Code and generated samples are available at https://github.com/apple/ml-starflow.
PDF172December 1, 2025