RAVEN: реальновременная авторегрессионная видеоэкстраполяция с GRPO на основе модели согласованности

Аннотация

Каузальные авторегрессионные видеомодели диффузии поддерживают потоковую генерацию в реальном времени за счет экстраполяции будущих блоков на основе ранее сгенерированного контента. Дистилляция таких генераторов из высокоточных двунаправленных учителей позволяет получить конкурентоспособные модели с малым числом шагов, однако сохраняющийся разрыв между распределениями истории, встречающимися во время обучения и возникающими при инференсе, ограничивает качество генерации на длинных горизонтах. Мы представляем Сеть реального времени для авторегрессионной экстраполяции видео (RAVEN) — тестовый фреймворк времени обучения, который переупаковывает каждый собственный разверточный цикл в перемежающуюся последовательность чистых исторических конечных точек и зашумленных состояний денойзинга. Такая формулировка согласовывает внимание во время обучения с экстраполяцией на этапе инференса и позволяет потерям последующих блоков контролировать представления истории, от которых зависят будущие предсказания. Далее мы предлагаем Групповую оптимизацию относительной политики на основе модели согласованности (CM-GRPO), которая переформулирует шаг семплирования согласованности как условный гауссовский переход и применяет онлайн-обучение с подкреплением (RL) непосредственно к этому ядру, избегая вспомогательного процесса Эйлера–Маруямы, используемого в предыдущих формулировках RL для моделей потоков. Эксперименты демонстрируют, что RAVEN превосходит недавние базовые линии каузальной дистилляции видео по оценкам качества, семантики и степени динамики, а CM-GRPO обеспечивает дополнительный прирост при совместном использовании с RAVEN.

English

Causal autoregressive video diffusion models support real-time streaming generation by extrapolating future chunks from previously generated content. Distilling such generators from high-fidelity bidirectional teachers yields competitive few-step models, yet a persistent gap between the history distributions encountered during training and those arising at inference constrains generation quality over long horizons. We introduce the Real-time Autoregressive Video Extrapolation Network (RAVEN), a training-time test framework that repacks each self rollout into an interleaved sequence of clean historical endpoints and noisy denoising states. This formulation aligns training attention with inference-time extrapolation and allows downstream chunk losses to supervise the history representations on which future predictions depend. We further propose Consistency-model Group Relative Policy Optimization (CM-GRPO), which reformulates a consistency sampling step as a conditional Gaussian transition and applies online Reinforcement Learning (RL) directly to this kernel, avoiding the Euler-Maruyama auxiliary process adopted in prior flow-model RL formulations. Experiments demonstrate that RAVEN surpasses recent causal video distillation baselines across quality, semantic, and dynamic degree evaluations, and that CM-GRPO provides further gains when combined with RAVEN.