RAVEN: Real-time Autoregressieve Video-extrapolatie met Consistentiemodel GRPO

Samenvatting

Causale autoregressieve videodiffusiemodellen ondersteunen real-time streaming generatie door het extrapoleren van toekomstige segmenten uit eerder gegenereerde inhoud. Het distilleren van dergelijke generatoren uit bidirectionele leraren met hoge getrouwheid levert concurrerende modellen met weinig stappen op, maar een aanhoudende kloof tussen de historiedistributies die tijdens de training worden aangetroffen en die welke tijdens de inferentie optreden, beperkt de generatiekwaliteit over lange tijdsintervallen. We introduceren het Real-time Autoregressief Video-Extrapolatienetwerk (RAVEN), een testraamwerk tijdens de training dat elke zelf-rollout herverpakt in een afgewisselde reeks van schone historische eindpunten en ruizige denoising-toestanden. Deze formulering stemt de trainingsaandacht af op de extrapolatie tijdens inferentie en stelt verliezen van downstream segmenten in staat om toezicht te houden op de historierepresentaties waarvan toekomstige voorspellingen afhangen. We stellen verder Consistentiemodel Groepsrelatieve Beleidsoptimalisatie (CM-GRPO) voor, welke een consistentie-samplingstap herformuleert als een conditionele Gaussische overgang en online versterkend leren (RL) direct op deze kern toepast, waarbij het Euler-Maruyama hulpproces wordt vermeden dat in eerdere flow-model RL-formuleringen wordt gebruikt. Experimenten tonen aan dat RAVEN recente causale videodistillatie-baselines overtreft op het gebied van kwaliteit, semantische en dynamische graadevaluaties, en dat CM-GRPO verdere winst oplevert wanneer het met RAVEN wordt gecombineerd.

English

Causal autoregressive video diffusion models support real-time streaming generation by extrapolating future chunks from previously generated content. Distilling such generators from high-fidelity bidirectional teachers yields competitive few-step models, yet a persistent gap between the history distributions encountered during training and those arising at inference constrains generation quality over long horizons. We introduce the Real-time Autoregressive Video Extrapolation Network (RAVEN), a training-time test framework that repacks each self rollout into an interleaved sequence of clean historical endpoints and noisy denoising states. This formulation aligns training attention with inference-time extrapolation and allows downstream chunk losses to supervise the history representations on which future predictions depend. We further propose Consistency-model Group Relative Policy Optimization (CM-GRPO), which reformulates a consistency sampling step as a conditional Gaussian transition and applies online Reinforcement Learning (RL) directly to this kernel, avoiding the Euler-Maruyama auxiliary process adopted in prior flow-model RL formulations. Experiments demonstrate that RAVEN surpasses recent causal video distillation baselines across quality, semantic, and dynamic degree evaluations, and that CM-GRPO provides further gains when combined with RAVEN.