ChatPaper.aiChatPaper

STARFlow-V: End-to-End Videogeneratieve Modellering met Normaliserende Stromen

STARFlow-V: End-to-End Video Generative Modeling with Normalizing Flow

November 25, 2025
Auteurs: Jiatao Gu, Ying Shen, Tianrong Chen, Laurent Dinh, Yuyang Wang, Miguel Angel Bautista, David Berthelot, Josh Susskind, Shuangfei Zhai
cs.AI

Samenvatting

Normaliserende stromen (NF's) zijn end-to-end op waarschijnlijkheid gebaseerde generatieve modellen voor continue gegevens en hebben onlangs hernieuwde aandacht gekregen door bemoedigende vooruitgang bij beeldgeneratie. In het domein van videogeneratie, waar de spatiotemporele complexiteit en rekencosten aanzienlijk hoger liggen, vertrouwen state-of-the-art systemen echter bijna uitsluitend op op diffusie gebaseerde modellen. In dit werk verkennen we deze ontwerpruimte opnieuw met STARFlow-V, een op normaliserende stromen gebaseerde videogenerator met aanzienlijke voordelen zoals end-to-end leren, robuuste causale voorspelling en native waarschijnlijkheidsschatting. Voortbordurend op het recent voorgestelde STARFlow, opereert STARFlow-V in de spatiotemporele latente ruimte met een globaal-lokale architectuur die causale afhankelijkheden beperkt tot een globale latente ruimte, terwijl rijke lokale interacties binnen frames behouden blijven. Dit vermindert de opeenhoping van fouten in de tijd, een veelvoorkomende valkuil bij standaard autoregressieve diffusiemodelgeneratie. Daarnaast stellen we flow-score matching voor, dat het model uitrust met een lichtgewicht causale denoiser om de consistentie van videogeneratie op autoregressieve wijze te verbeteren. Om de steekproefefficiëntie te verbeteren, gebruikt STARFlow-V een video-aware Jacobi-iteratieschema dat interne updates herformuleert als paralleliseerbare iteraties zonder causaliteit te doorbreken. Dankzij de inverteerbare structuur kan hetzelfde model native tekst-naar-video, beeld-naar-video en video-naar-video generatietaken ondersteunen. Empirisch bereikt STARFlow-V een sterke visuele kwaliteit en temporele consistentie met een praktische doorvoersnelheid voor steekproeven in vergelijking met op diffusie gebaseerde baseline-modellen. Deze resultaten vormen, voor zover wij weten, het eerste bewijs dat NF's in staat zijn tot hoogwaardige autoregressieve videogeneratie, waarmee ze zich vestigen als een veelbelovende onderzoeksrichting voor het bouwen van wereldmodellen. Code en gegenereerde voorbeelden zijn beschikbaar op https://github.com/apple/ml-starflow.
English
Normalizing flows (NFs) are end-to-end likelihood-based generative models for continuous data, and have recently regained attention with encouraging progress on image generation. Yet in the video generation domain, where spatiotemporal complexity and computational cost are substantially higher, state-of-the-art systems almost exclusively rely on diffusion-based models. In this work, we revisit this design space by presenting STARFlow-V, a normalizing flow-based video generator with substantial benefits such as end-to-end learning, robust causal prediction, and native likelihood estimation. Building upon the recently proposed STARFlow, STARFlow-V operates in the spatiotemporal latent space with a global-local architecture which restricts causal dependencies to a global latent space while preserving rich local within-frame interactions. This eases error accumulation over time, a common pitfall of standard autoregressive diffusion model generation. Additionally, we propose flow-score matching, which equips the model with a light-weight causal denoiser to improve the video generation consistency in an autoregressive fashion. To improve the sampling efficiency, STARFlow-V employs a video-aware Jacobi iteration scheme that recasts inner updates as parallelizable iterations without breaking causality. Thanks to the invertible structure, the same model can natively support text-to-video, image-to-video as well as video-to-video generation tasks. Empirically, STARFlow-V achieves strong visual fidelity and temporal consistency with practical sampling throughput relative to diffusion-based baselines. These results present the first evidence, to our knowledge, that NFs are capable of high-quality autoregressive video generation, establishing them as a promising research direction for building world models. Code and generated samples are available at https://github.com/apple/ml-starflow.
PDF172December 1, 2025