RAVEN: Echtzeit-autoregressive Video-Extrapolation mit Consistency-Modell GRPO

Zusammenfassung

Kausale autoregressive Videodiffusionsmodelle ermöglichen eine Echtzeit-Streaming-Generierung, indem sie zukünftige Blöcke aus bereits erzeugten Inhalten extrapolieren. Die Destillation solcher Generatoren aus hochgenauen bidirektionalen Lehrern liefert konkurrenzfähige Modelle mit wenigen Schritten, doch eine anhaltende Diskrepanz zwischen den während des Trainings auftretenden Historienverteilungen und denen, die zur Inferenz entstehen, schränkt die Generierungsqualität über lange Horizonte ein. Wir führen das Real-time Autoregressive Video Extrapolation Network (RAVEN) ein, ein Framework für Trainingszeit-Tests, das jeden Selbst-Rollout in eine verschachtelte Sequenz aus sauberen historischen Endpunkten und verrauschten Denoising-Zuständen umpackt. Diese Formulierung richtet die Trainingsaufmerksamkeit an der Extrapolation zur Inferenz aus und ermöglicht es, dass Verluste nachgelagerter Blöcke die Historienrepräsentationen überwachen, von denen zukünftige Vorhersagen abhängen. Weiterhin schlagen wir die Consistency-model Group Relative Policy Optimization (CM-GRPO) vor, die einen Konsistenzabtastschritt als bedingten Gauß-Übergang umformuliert und Online-Verstärkungslernen (RL) direkt auf diesen Kernel anwendet, wodurch der in früheren Flussmodell-RL-Formulierungen verwendete Euler-Maruyama-Hilfsprozess vermieden wird. Experimente zeigen, dass RAVEN aktuelle kausale Videodestillationsbaselines in Bezug auf Qualität, Semantik und Dynamikgradbewertungen übertrifft und dass CM-GRPO in Kombination mit RAVEN weitere Verbesserungen erzielt.

English

Causal autoregressive video diffusion models support real-time streaming generation by extrapolating future chunks from previously generated content. Distilling such generators from high-fidelity bidirectional teachers yields competitive few-step models, yet a persistent gap between the history distributions encountered during training and those arising at inference constrains generation quality over long horizons. We introduce the Real-time Autoregressive Video Extrapolation Network (RAVEN), a training-time test framework that repacks each self rollout into an interleaved sequence of clean historical endpoints and noisy denoising states. This formulation aligns training attention with inference-time extrapolation and allows downstream chunk losses to supervise the history representations on which future predictions depend. We further propose Consistency-model Group Relative Policy Optimization (CM-GRPO), which reformulates a consistency sampling step as a conditional Gaussian transition and applies online Reinforcement Learning (RL) directly to this kernel, avoiding the Euler-Maruyama auxiliary process adopted in prior flow-model RL formulations. Experiments demonstrate that RAVEN surpasses recent causal video distillation baselines across quality, semantic, and dynamic degree evaluations, and that CM-GRPO provides further gains when combined with RAVEN.