ChatPaper.aiChatPaper

STARFlow-V: Modellazione Generativa Video End-to-End con Flusso Normalizzante

STARFlow-V: End-to-End Video Generative Modeling with Normalizing Flow

November 25, 2025
Autori: Jiatao Gu, Ying Shen, Tianrong Chen, Laurent Dinh, Yuyang Wang, Miguel Angel Bautista, David Berthelot, Josh Susskind, Shuangfei Zhai
cs.AI

Abstract

I flussi normalizzanti (NF) sono modelli generativi basati sulla verosimiglianza end-to-end per dati continui e hanno recentemente riacquisito attenzione grazie a progressi incoraggianti nella generazione di immagini. Tuttavia, nel dominio della generazione video, dove la complessità spaziotemporale e il costo computazionale sono sostanzialmente più elevati, i sistemi all'avanguardia si basano quasi esclusivamente su modelli di tipo diffusion. In questo lavoro, rivisitiamo questo spazio di progettazione presentando STARFlow-V, un generatore di video basato su flussi normalizzanti con vantaggi sostanziali come l'apprendimento end-to-end, la previsione causale robusta e la stima nativa della verosimiglianza. Basandosi sul recente STARFlow proposto, STARFlow-V opera nello spazio latente spaziotemporale con un'architettura globale-locale che limita le dipendenze causali a uno spazio latente globale preservando al contempo ricche interazioni locali intra-frame. Questo attenua l'accumulo di errori nel tempo, una trappola comune della generazione autoregressiva standard con modelli diffusion. Inoltre, proponiamo il flow-score matching, che equipaggia il modello con un denoiser causale leggero per migliorare la coerenza della generazione video in modo autoregressivo. Per migliorare l'efficienza del campionamento, STARFlow-V utilizza uno schema di iterazione di Jacobi video-aware che trasforma gli aggiornamenti interni in iterazioni parallelizzabili senza violare la causalità. Grazie alla struttura invertibile, lo stesso modello può supportare nativamente compiti di generazione text-to-video, image-to-video e video-to-video. Empiricamente, STARFlow-V raggiunge una forte fedeltà visiva e coerenza temporale con una velocità di campionamento pratica rispetto ai baseline basati su diffusion. Questi risultati rappresentano, a nostra conoscenza, la prima evidenza che gli NF sono capaci di generazione video autoregressiva di alta qualità, stabilendoli come una promettente direzione di ricerca per la costruzione di modelli del mondo. Il codice e i campioni generati sono disponibili su https://github.com/apple/ml-starflow.
English
Normalizing flows (NFs) are end-to-end likelihood-based generative models for continuous data, and have recently regained attention with encouraging progress on image generation. Yet in the video generation domain, where spatiotemporal complexity and computational cost are substantially higher, state-of-the-art systems almost exclusively rely on diffusion-based models. In this work, we revisit this design space by presenting STARFlow-V, a normalizing flow-based video generator with substantial benefits such as end-to-end learning, robust causal prediction, and native likelihood estimation. Building upon the recently proposed STARFlow, STARFlow-V operates in the spatiotemporal latent space with a global-local architecture which restricts causal dependencies to a global latent space while preserving rich local within-frame interactions. This eases error accumulation over time, a common pitfall of standard autoregressive diffusion model generation. Additionally, we propose flow-score matching, which equips the model with a light-weight causal denoiser to improve the video generation consistency in an autoregressive fashion. To improve the sampling efficiency, STARFlow-V employs a video-aware Jacobi iteration scheme that recasts inner updates as parallelizable iterations without breaking causality. Thanks to the invertible structure, the same model can natively support text-to-video, image-to-video as well as video-to-video generation tasks. Empirically, STARFlow-V achieves strong visual fidelity and temporal consistency with practical sampling throughput relative to diffusion-based baselines. These results present the first evidence, to our knowledge, that NFs are capable of high-quality autoregressive video generation, establishing them as a promising research direction for building world models. Code and generated samples are available at https://github.com/apple/ml-starflow.
PDF172December 1, 2025