STARFlow-V : Modélisation générative vidéo de bout en bout par flot de normalisation
STARFlow-V: End-to-End Video Generative Modeling with Normalizing Flow
November 25, 2025
papers.authors: Jiatao Gu, Ying Shen, Tianrong Chen, Laurent Dinh, Yuyang Wang, Miguel Angel Bautista, David Berthelot, Josh Susskind, Shuangfei Zhai
cs.AI
papers.abstract
Les flux de normalisation (NFs) sont des modèles génératifs basés sur la vraisemblance de bout en bout pour les données continues, et ont récemment retrouvé l'attention avec des progrès encourageants en génération d'images. Pourtant, dans le domaine de la génération vidéo, où la complexité spatio-temporelle et le coût computationnel sont nettement plus élevés, les systèmes à la pointe reposent presque exclusivement sur des modèles basés sur la diffusion. Dans ce travail, nous revisitons cet espace de conception en présentant STARFlow-V, un générateur vidéo basé sur les flux de normalisation offrant des avantages substantiels tels qu'un apprentissage de bout en bout, une prédiction causale robuste et une estimation native de la vraisemblance. S'appuyant sur le récent STARFlow, STARFlow-V opère dans l'espace latent spatio-temporel avec une architecture globale-locale qui restreint les dépendances causales à un espace latent global tout en préservant de riches interactions locales intra-trame. Cela atténue l'accumulation d'erreurs dans le temps, un écueil courant des modèles de génération par diffusion autogressive standard. De plus, nous proposons l'appariement par score de flux, qui équipe le modèle d'un débruiteur causal léger pour améliorer la cohérence de la génération vidéo de manière autogressive. Pour améliorer l'efficacité de l'échantillonnage, STARFlow-V emploie un schéma d'itération de Jacobi adapté aux vidéos qui reformule les mises à jour internes en itérations parallélisables sans briser la causalité. Grâce à la structure inversible, le même modèle peut prendre en charge nativement les tâches de génération texte-à-vidéo, image-à-vidéo ainsi que vidéo-à-vidéo. Empiriquement, STARFlow-V atteint une forte fidélité visuelle et une cohérence temporelle avec un débit d'échantillonnage pratique par rapport aux modèles de référence basés sur la diffusion. Ces résultats constituent, à notre connaissance, la première preuve que les NFs sont capables d'une génération vidéo autogressive de haute qualité, les établissant comme une direction de recherche prometteuse pour la construction de modèles du monde. Le code et des échantillons générés sont disponibles à l'adresse https://github.com/apple/ml-starflow.
English
Normalizing flows (NFs) are end-to-end likelihood-based generative models for continuous data, and have recently regained attention with encouraging progress on image generation. Yet in the video generation domain, where spatiotemporal complexity and computational cost are substantially higher, state-of-the-art systems almost exclusively rely on diffusion-based models. In this work, we revisit this design space by presenting STARFlow-V, a normalizing flow-based video generator with substantial benefits such as end-to-end learning, robust causal prediction, and native likelihood estimation. Building upon the recently proposed STARFlow, STARFlow-V operates in the spatiotemporal latent space with a global-local architecture which restricts causal dependencies to a global latent space while preserving rich local within-frame interactions. This eases error accumulation over time, a common pitfall of standard autoregressive diffusion model generation. Additionally, we propose flow-score matching, which equips the model with a light-weight causal denoiser to improve the video generation consistency in an autoregressive fashion. To improve the sampling efficiency, STARFlow-V employs a video-aware Jacobi iteration scheme that recasts inner updates as parallelizable iterations without breaking causality. Thanks to the invertible structure, the same model can natively support text-to-video, image-to-video as well as video-to-video generation tasks. Empirically, STARFlow-V achieves strong visual fidelity and temporal consistency with practical sampling throughput relative to diffusion-based baselines. These results present the first evidence, to our knowledge, that NFs are capable of high-quality autoregressive video generation, establishing them as a promising research direction for building world models. Code and generated samples are available at https://github.com/apple/ml-starflow.