RAVEN : Extrapolation vidéo autorégressive en temps réel avec le modèle de cohérence GRPO

Résumé

Les modèles de diffusion vidéo autorégressifs causaux permettent la génération en flux continu en temps réel en extrapolant des fragments futurs à partir de contenus déjà générés. La distillation de tels générateurs à partir d'enseignants bidirectionnels de haute fidélité donne des modèles compétitifs à quelques étapes, mais un écart persistant entre les distributions d'historique rencontrées lors de l'entraînement et celles apparaissant à l'inférence limite la qualité de la génération sur de longs horizons. Nous présentons le Réseau d'Extrapolation Vidéo Autoregressif en Temps Réel (RAVEN), un cadre de test en phase d'entraînement qui reconditionne chaque auto-déploiement en une séquence entrelacée de points finaux historiques propres et d'états de débruitage bruités. Cette formulation aligne l'attention d'entraînement avec l'extrapolation à l'inférence et permet aux pertes des fragments aval de superviser les représentations d'historique dont dépendent les prédictions futures. Nous proposons également l'Optimisation Relative de Politique de Groupe par Modèle de Cohérence (CM-GRPO), qui reformule une étape d'échantillonnage de cohérence comme une transition gaussienne conditionnelle et applique l'Apprentissage par Renforcement (RL) en ligne directement à ce noyau, évitant ainsi le processus auxiliaire d'Euler-Maruyama adopté dans les formulations RL antérieures basées sur les modèles de flux. Les expériences démontrent que RAVEN surpasse les récentes bases de distillation vidéo causale en termes de qualité, de sémantique et d'évaluation du degré dynamique, et que CM-GRPO apporte des gains supplémentaires lorsqu'il est combiné à RAVEN.

English

Causal autoregressive video diffusion models support real-time streaming generation by extrapolating future chunks from previously generated content. Distilling such generators from high-fidelity bidirectional teachers yields competitive few-step models, yet a persistent gap between the history distributions encountered during training and those arising at inference constrains generation quality over long horizons. We introduce the Real-time Autoregressive Video Extrapolation Network (RAVEN), a training-time test framework that repacks each self rollout into an interleaved sequence of clean historical endpoints and noisy denoising states. This formulation aligns training attention with inference-time extrapolation and allows downstream chunk losses to supervise the history representations on which future predictions depend. We further propose Consistency-model Group Relative Policy Optimization (CM-GRPO), which reformulates a consistency sampling step as a conditional Gaussian transition and applies online Reinforcement Learning (RL) directly to this kernel, avoiding the Euler-Maruyama auxiliary process adopted in prior flow-model RL formulations. Experiments demonstrate that RAVEN surpasses recent causal video distillation baselines across quality, semantic, and dynamic degree evaluations, and that CM-GRPO provides further gains when combined with RAVEN.