ChatPaper.aiChatPaper

STARFlow-V: Сквозное генеративное моделирование видео на основе нормализующих потоков

STARFlow-V: End-to-End Video Generative Modeling with Normalizing Flow

November 25, 2025
Авторы: Jiatao Gu, Ying Shen, Tianrong Chen, Laurent Dinh, Yuyang Wang, Miguel Angel Bautista, David Berthelot, Josh Susskind, Shuangfei Zhai
cs.AI

Аннотация

Нормализующие потоки (NF) — это основанные на правдоподобии end-to-end генеративные модели для непрерывных данных, которые в последнее время вновь привлекли внимание благодаря обнадеживающему прогрессу в генерации изображений. Однако в области генерации видео, где пространственно-временная сложность и вычислительные затраты существенно выше, современные системы почти исключительно полагаются на диффузионные модели. В данной работе мы пересматриваем это пространство проектирования, представляя STARFlow-V — видеогенератор на основе нормализующего потока, обладающий значительными преимуществами, такими как сквозное обучение, надежное каузальное прогнозирование и нативная оценка правдоподобия. Развивая недавно предложенный STARFlow, STARFlow-V работает в пространственно-временном латентном пространстве с глобально-локальной архитектурой, которая ограничивает каузальные зависимости глобальным латентным пространством, сохраняя при этом богатые локальные взаимодействия внутри кадра. Это смягчает накопление ошибок во времени — распространенную проблему стандартной авторегрессионной генерации на основе диффузионных моделей. Кроме того, мы предлагаем метод сопоставления потоков и оценок (flow-score matching), который оснащает модель легковесным каузальным шумоподавителем для улучшения согласованности генерации видео авторегрессионным способом. Для повышения эффективности выборки STARFlow-V использует видеоспецифичную схему итераций Якоби, которая преобразует внутренние обновления в параллелизуемые итерации без нарушения причинности. Благодаря инвертируемой структуре та же модель изначально поддерживает задачи генерации видео по тексту, видео по изображению, а также видео по видео. Экспериментально STARFlow-V демонстрирует высокую визуальную точность и временную согласованность при практической пропускной способности выборки по сравнению с диффузионными базовыми методами. Эти результаты, насколько нам известно, впервые свидетельствуют о том, что нормализующие потоки способны на высококачественную авторегрессионную генерацию видео, утверждая их как перспективное направление исследований для построения мировых моделей. Код и сгенерированные примеры доступны по адресу https://github.com/apple/ml-starflow.
English
Normalizing flows (NFs) are end-to-end likelihood-based generative models for continuous data, and have recently regained attention with encouraging progress on image generation. Yet in the video generation domain, where spatiotemporal complexity and computational cost are substantially higher, state-of-the-art systems almost exclusively rely on diffusion-based models. In this work, we revisit this design space by presenting STARFlow-V, a normalizing flow-based video generator with substantial benefits such as end-to-end learning, robust causal prediction, and native likelihood estimation. Building upon the recently proposed STARFlow, STARFlow-V operates in the spatiotemporal latent space with a global-local architecture which restricts causal dependencies to a global latent space while preserving rich local within-frame interactions. This eases error accumulation over time, a common pitfall of standard autoregressive diffusion model generation. Additionally, we propose flow-score matching, which equips the model with a light-weight causal denoiser to improve the video generation consistency in an autoregressive fashion. To improve the sampling efficiency, STARFlow-V employs a video-aware Jacobi iteration scheme that recasts inner updates as parallelizable iterations without breaking causality. Thanks to the invertible structure, the same model can natively support text-to-video, image-to-video as well as video-to-video generation tasks. Empirically, STARFlow-V achieves strong visual fidelity and temporal consistency with practical sampling throughput relative to diffusion-based baselines. These results present the first evidence, to our knowledge, that NFs are capable of high-quality autoregressive video generation, establishing them as a promising research direction for building world models. Code and generated samples are available at https://github.com/apple/ml-starflow.
PDF172December 1, 2025