ChatPaper.aiChatPaper

STARFlow-V: Modelado Generativo de Vídeo Extremo a Extremo con Flujos Normalizantes

STARFlow-V: End-to-End Video Generative Modeling with Normalizing Flow

November 25, 2025
Autores: Jiatao Gu, Ying Shen, Tianrong Chen, Laurent Dinh, Yuyang Wang, Miguel Angel Bautista, David Berthelot, Josh Susskind, Shuangfei Zhai
cs.AI

Resumen

Los flujos normalizadores (NFs) son modelos generativos basados en verosimilitud de extremo a extremo para datos continuos, y recientemente han recuperado atención con avances alentadores en generación de imágenes. Sin embargo, en el dominio de la generación de vídeo, donde la complejidad espacio-temporal y el coste computacional son sustancialmente mayores, los sistemas de vanguardia dependen casi exclusivamente de modelos basados en difusión. En este trabajo, revisitamos este espacio de diseño presentando STARFlow-V, un generador de vídeo basado en flujos normalizadores con beneficios sustanciales como el aprendizaje de extremo a extremo, la predicción causal robusta y la estimación nativa de verosimilitud. Basándose en el recientemente propuesto STARFlow, STARFlow-V opera en el espacio latente espacio-temporal con una arquitectura global-local que restringe las dependencias causales a un espacio latente global mientras preserva ricas interacciones locales intra-fotograma. Esto mitiga la acumulación de errores en el tiempo, un problema común en la generación estándar de modelos de difusión autorregresivos. Adicionalmente, proponemos el emparejamiento por puntuación de flujo (flow-score matching), que dota al modelo de un desruidor causal ligero para mejorar la consistencia en la generación de vídeo de forma autorregresiva. Para mejorar la eficiencia del muestreo, STARFlow-V emplea un esquema de iteración de Jacobi consciente del vídeo que reformula las actualizaciones internas como iteraciones paralelizables sin romper la causalidad. Gracias a la estructura invertible, el mismo modelo puede soportar nativamente tareas de generación de texto a vídeo, imagen a vídeo y vídeo a vídeo. Empíricamente, STARFlow-V logra una fuerte fidelidad visual y consistencia temporal con un rendimiento práctico de muestreo en comparación con líneas base basadas en difusión. Estos resultados presentan la primera evidencia, hasta donde sabemos, de que los NFs son capaces de generación de vídeo autorregresiva de alta calidad, estableciéndolos como una dirección de investigación prometedora para construir modelos del mundo. El código y muestras generadas están disponibles en https://github.com/apple/ml-starflow.
English
Normalizing flows (NFs) are end-to-end likelihood-based generative models for continuous data, and have recently regained attention with encouraging progress on image generation. Yet in the video generation domain, where spatiotemporal complexity and computational cost are substantially higher, state-of-the-art systems almost exclusively rely on diffusion-based models. In this work, we revisit this design space by presenting STARFlow-V, a normalizing flow-based video generator with substantial benefits such as end-to-end learning, robust causal prediction, and native likelihood estimation. Building upon the recently proposed STARFlow, STARFlow-V operates in the spatiotemporal latent space with a global-local architecture which restricts causal dependencies to a global latent space while preserving rich local within-frame interactions. This eases error accumulation over time, a common pitfall of standard autoregressive diffusion model generation. Additionally, we propose flow-score matching, which equips the model with a light-weight causal denoiser to improve the video generation consistency in an autoregressive fashion. To improve the sampling efficiency, STARFlow-V employs a video-aware Jacobi iteration scheme that recasts inner updates as parallelizable iterations without breaking causality. Thanks to the invertible structure, the same model can natively support text-to-video, image-to-video as well as video-to-video generation tasks. Empirically, STARFlow-V achieves strong visual fidelity and temporal consistency with practical sampling throughput relative to diffusion-based baselines. These results present the first evidence, to our knowledge, that NFs are capable of high-quality autoregressive video generation, establishing them as a promising research direction for building world models. Code and generated samples are available at https://github.com/apple/ml-starflow.
PDF172December 1, 2025