ChatPaper.aiChatPaper

STARFlow-V: 정규화 흐름을 활용한 종단간 비디오 생성 모델링

STARFlow-V: End-to-End Video Generative Modeling with Normalizing Flow

November 25, 2025
저자: Jiatao Gu, Ying Shen, Tianrong Chen, Laurent Dinh, Yuyang Wang, Miguel Angel Bautista, David Berthelot, Josh Susskind, Shuangfei Zhai
cs.AI

초록

정규화 흐름(Normalizing Flows, NFs)은 연속 데이터를 위한 종단 간 우도 기반 생성 모델로, 최근 이미지 생성 분야에서 고무적인 진전을 보이며 다시 주목받고 있습니다. 그러나 시공간적 복잡성과 계산 비용이 훨씬 높은 비디오 생성 영역에서는 최첨단 시스템이 거의 전적으로 확산 기반 모델에 의존해 왔습니다. 본 연구에서는 정규화 흐름 기반 비디오 생성기인 STARFlow-V를 제시하여 이 설계 공간을 재조명합니다. STARFlow-V는 종단 간 학습, 강력한 인과적 예측, 기본적인 우도 추정 등 상당한 이점을 갖습니다. 최근 제안된 STARFlow를 기반으로 구축된 STARFlow-V는 인과적 의존성을 전역 잠재 공간으로 제한하면서도 풍부한 프레임 내 지역적 상호작용을 보존하는 글로벌-로컬 아키텍처로 시공간 잠재 공간에서 운영됩니다. 이는 표준 자기회귀 확산 모델 생성에서 흔히 발생하는 시간에 따른 오류 누적 문제를 완화합니다. 또한 플로우-스코어 매칭(flow-score matching)을 제안하여 모델에 경량 인과적 잡음 제거기를 장착하여 자기회귀 방식으로 비디오 생성 일관성을 향상시킵니다. 샘플링 효율성을 높이기 위해 STARFlow-V는 내부 업데이트를 인과성을 해치지 않고 병렬화 가능한 반복으로 재구성하는 비디오 인식 야코비 반복 기법을 사용합니다. 가역적 구조 덕분에 동일 모델이 텍스트-비디오, 이미지-비디오 및 비디오-비디오 생성 작업을 기본적으로 지원할 수 있습니다. 실험적으로 STARFlow-V는 확산 기반 기준선 대비 실용적인 샘플링 처리량으로 강력한 시각적 충실도와 시간적 일관성을 달성합니다. 이러한 결과는 저자들이 알기로 NFs가 고품질 자기회귀 비디오 생성이 가능하다는 첫 번째 증거를 제시하며, 세계 모델 구축을 위한 유망한 연구 방향으로 자리매김합니다. 코드와 생성 샘플은 https://github.com/apple/ml-starflow에서 확인할 수 있습니다.
English
Normalizing flows (NFs) are end-to-end likelihood-based generative models for continuous data, and have recently regained attention with encouraging progress on image generation. Yet in the video generation domain, where spatiotemporal complexity and computational cost are substantially higher, state-of-the-art systems almost exclusively rely on diffusion-based models. In this work, we revisit this design space by presenting STARFlow-V, a normalizing flow-based video generator with substantial benefits such as end-to-end learning, robust causal prediction, and native likelihood estimation. Building upon the recently proposed STARFlow, STARFlow-V operates in the spatiotemporal latent space with a global-local architecture which restricts causal dependencies to a global latent space while preserving rich local within-frame interactions. This eases error accumulation over time, a common pitfall of standard autoregressive diffusion model generation. Additionally, we propose flow-score matching, which equips the model with a light-weight causal denoiser to improve the video generation consistency in an autoregressive fashion. To improve the sampling efficiency, STARFlow-V employs a video-aware Jacobi iteration scheme that recasts inner updates as parallelizable iterations without breaking causality. Thanks to the invertible structure, the same model can natively support text-to-video, image-to-video as well as video-to-video generation tasks. Empirically, STARFlow-V achieves strong visual fidelity and temporal consistency with practical sampling throughput relative to diffusion-based baselines. These results present the first evidence, to our knowledge, that NFs are capable of high-quality autoregressive video generation, establishing them as a promising research direction for building world models. Code and generated samples are available at https://github.com/apple/ml-starflow.
PDF172December 1, 2025