STARFlow-V:正規化フローによるエンドツーエンドのビデオ生成モデリング
STARFlow-V: End-to-End Video Generative Modeling with Normalizing Flow
November 25, 2025
著者: Jiatao Gu, Ying Shen, Tianrong Chen, Laurent Dinh, Yuyang Wang, Miguel Angel Bautista, David Berthelot, Josh Susskind, Shuangfei Zhai
cs.AI
要旨
正規化流(Normalizing Flows: NFs)は、連続データに対するエンドツーエンドの尤度ベース生成モデルであり、画像生成における有望な進展を背景に近年再び注目を集めている。しかし、時空間的な複雑さと計算コストが大幅に高いビデオ生成領域では、最先端のシステムはほぼ例外なく拡散モデルに依存している。本研究では、この設計空間を再検討し、正規化フローに基づくビデオ生成モデルSTARFlow-Vを提案する。本モデルは、エンドツーエンド学習、ロバストな因果的予測、ネイティブな尤度推定といった重要な利点を有する。最近提案されたSTARFlowを発展させたSTARFlow-Vは、大域‐局所構造を持つ時空間潜在空間で動作し、因果依存関係を大域潜在空間に制限しつつ、フレーム内の豊富な局所的相互作用を保持する。これにより、標準的な自己回帰的な拡散モデル生成において一般的な欠点である、時間経過に伴う誤差蓄積が軽減される。さらに、フロースコアマッチングを提案し、軽量な因果的デノイザをモデルに組み込むことで、自己回帰的な様式でビデオ生成の一貫性を向上させる。サンプリング効率を高めるため、STARFlow-Vは、因果性を損なうことなく内部更新を並列化可能な反復処理として再定義する、ビデオを意識したヤコビ反復スキームを採用する。可逆構造の恩恵により、同一モデルがテキストからビデオ、画像からビデオ、およびビデオからビデオへの生成タスクをネイティブにサポートする。実験により、STARFlow-Vは、拡散モデルベースのベースラインと比較して実用的なサンプリング処理能力を維持しつつ、強力な視覚的忠実度と時間的一貫性を達成する。これらの結果は、我々の知る限り、NFsが高品質な自己回帰的ビデオ生成を実現可能である初の証拠を示し、世界モデル構築における有望な研究方向としてNFsを確立するものである。コードと生成サンプルはhttps://github.com/apple/ml-starflow で公開されている。
English
Normalizing flows (NFs) are end-to-end likelihood-based generative models for continuous data, and have recently regained attention with encouraging progress on image generation. Yet in the video generation domain, where spatiotemporal complexity and computational cost are substantially higher, state-of-the-art systems almost exclusively rely on diffusion-based models. In this work, we revisit this design space by presenting STARFlow-V, a normalizing flow-based video generator with substantial benefits such as end-to-end learning, robust causal prediction, and native likelihood estimation. Building upon the recently proposed STARFlow, STARFlow-V operates in the spatiotemporal latent space with a global-local architecture which restricts causal dependencies to a global latent space while preserving rich local within-frame interactions. This eases error accumulation over time, a common pitfall of standard autoregressive diffusion model generation. Additionally, we propose flow-score matching, which equips the model with a light-weight causal denoiser to improve the video generation consistency in an autoregressive fashion. To improve the sampling efficiency, STARFlow-V employs a video-aware Jacobi iteration scheme that recasts inner updates as parallelizable iterations without breaking causality. Thanks to the invertible structure, the same model can natively support text-to-video, image-to-video as well as video-to-video generation tasks. Empirically, STARFlow-V achieves strong visual fidelity and temporal consistency with practical sampling throughput relative to diffusion-based baselines. These results present the first evidence, to our knowledge, that NFs are capable of high-quality autoregressive video generation, establishing them as a promising research direction for building world models. Code and generated samples are available at https://github.com/apple/ml-starflow.