RAVEN: Extrapolación de video autorregresiva en tiempo real con GRPO de modelo de consistencia

Resumen

Los modelos de difusión de video autoregresivos causales permiten la generación en tiempo real en streaming al extrapolar fragmentos futuros a partir de contenido previamente generado. Destilar dichos generadores a partir de profesores bidireccionales de alta fidelidad produce modelos competitivos de pocos pasos; sin embargo, una brecha persistente entre las distribuciones del historial encontradas durante el entrenamiento y las que surgen en la inferencia limita la calidad de generación en horizontes largos. Presentamos la Red de Extrapolación de Video Autoregresiva en Tiempo Real (RAVEN), un marco de prueba en tiempo de entrenamiento que reorganiza cada auto-despliegue en una secuencia intercalada de puntos finales históricos limpios y estados de denoising ruidosos. Esta formulación alinea la atención del entrenamiento con la extrapolación en tiempo de inferencia y permite que las pérdidas de fragmentos posteriores supervisen las representaciones del historial de las que dependen las predicciones futuras. Además, proponemos la Optimización de Política Relativa de Grupo con Modelo de Consistencia (CM-GRPO), que reformula un paso de muestreo de consistencia como una transición Gaussiana condicional y aplica Aprendizaje por Refuerzo (RL) en línea directamente a este núcleo, evitando el proceso auxiliar de Euler-Maruyama adoptado en formulaciones previas de RL con modelos de flujo. Los experimentos demuestran que RAVEN supera las líneas base recientes de destilación de video causal en evaluaciones de calidad, semántica y grado dinámico, y que CM-GRPO proporciona mejoras adicionales cuando se combina con RAVEN.

English

Causal autoregressive video diffusion models support real-time streaming generation by extrapolating future chunks from previously generated content. Distilling such generators from high-fidelity bidirectional teachers yields competitive few-step models, yet a persistent gap between the history distributions encountered during training and those arising at inference constrains generation quality over long horizons. We introduce the Real-time Autoregressive Video Extrapolation Network (RAVEN), a training-time test framework that repacks each self rollout into an interleaved sequence of clean historical endpoints and noisy denoising states. This formulation aligns training attention with inference-time extrapolation and allows downstream chunk losses to supervise the history representations on which future predictions depend. We further propose Consistency-model Group Relative Policy Optimization (CM-GRPO), which reformulates a consistency sampling step as a conditional Gaussian transition and applies online Reinforcement Learning (RL) directly to this kernel, avoiding the Euler-Maruyama auxiliary process adopted in prior flow-model RL formulations. Experiments demonstrate that RAVEN surpasses recent causal video distillation baselines across quality, semantic, and dynamic degree evaluations, and that CM-GRPO provides further gains when combined with RAVEN.