ChatPaper.aiChatPaper

STARFlow-V: Modelagem Generativa de Vídeo End-to-End com Fluxo Normalizante

STARFlow-V: End-to-End Video Generative Modeling with Normalizing Flow

November 25, 2025
Autores: Jiatao Gu, Ying Shen, Tianrong Chen, Laurent Dinh, Yuyang Wang, Miguel Angel Bautista, David Berthelot, Josh Susskind, Shuangfei Zhai
cs.AI

Resumo

Os fluxos de normalização (NFs) são modelos generativos baseados em verossimilhança de ponta a ponta para dados contínuos e recentemente readquiriram atenção com progressos animadores na geração de imagens. No entanto, no domínio da geração de vídeos, onde a complexidade espaço-temporal e o custo computacional são substancialmente maiores, os sistemas state-of-the-art quase que exclusivamente dependem de modelos baseados em difusão. Neste trabalho, revisitamos este espaço de projeto apresentando o STARFlow-V, um gerador de vídeos baseado em fluxo de normalização com benefícios substanciais, como aprendizado de ponta a ponta, previsão causal robusta e estimativa nativa de verossimilhança. Construído sobre o recentemente proposto STARFlow, o STARFlow-V opera no espaço latente espaço-temporal com uma arquitetura global-local que restringe dependências causais a um espaço latente global, preservando interações locais ricas dentro do quadro. Isso atenua o acúmulo de erros ao longo do tempo, uma armadilha comum da geração padrão de modelos de difusão autoregressivos. Adicionalmente, propomos o flow-score matching, que equipa o modelo com um desruidor causal leve para melhorar a consistência da geração de vídeo de forma autoregressiva. Para melhorar a eficiência de amostragem, o STARFlow-V emprega um esquema de iteração de Jacobi consciente do vídeo que reformula atualizações internas como iterações paralelizáveis sem quebrar a causalidade. Graças à estrutura invertível, o mesmo modelo pode suportar nativamente tarefas de geração texto-para-vídeo, imagem-para-vídeo e vídeo-para-vídeo. Empiricamente, o STARFlow-V alcança forte fidelidade visual e consistência temporal com taxa de transferência de amostragem prática em relação às linhas de base baseadas em difusão. Esses resultados apresentam a primeira evidência, até onde sabemos, de que os NFs são capazes de geração de vídeo autoregressiva de alta qualidade, estabelecendo-os como uma direção de pesquisa promissora para a construção de modelos do mundo. Código e amostras geradas estão disponíveis em https://github.com/apple/ml-starflow.
English
Normalizing flows (NFs) are end-to-end likelihood-based generative models for continuous data, and have recently regained attention with encouraging progress on image generation. Yet in the video generation domain, where spatiotemporal complexity and computational cost are substantially higher, state-of-the-art systems almost exclusively rely on diffusion-based models. In this work, we revisit this design space by presenting STARFlow-V, a normalizing flow-based video generator with substantial benefits such as end-to-end learning, robust causal prediction, and native likelihood estimation. Building upon the recently proposed STARFlow, STARFlow-V operates in the spatiotemporal latent space with a global-local architecture which restricts causal dependencies to a global latent space while preserving rich local within-frame interactions. This eases error accumulation over time, a common pitfall of standard autoregressive diffusion model generation. Additionally, we propose flow-score matching, which equips the model with a light-weight causal denoiser to improve the video generation consistency in an autoregressive fashion. To improve the sampling efficiency, STARFlow-V employs a video-aware Jacobi iteration scheme that recasts inner updates as parallelizable iterations without breaking causality. Thanks to the invertible structure, the same model can natively support text-to-video, image-to-video as well as video-to-video generation tasks. Empirically, STARFlow-V achieves strong visual fidelity and temporal consistency with practical sampling throughput relative to diffusion-based baselines. These results present the first evidence, to our knowledge, that NFs are capable of high-quality autoregressive video generation, establishing them as a promising research direction for building world models. Code and generated samples are available at https://github.com/apple/ml-starflow.
PDF332March 24, 2026