RAVEN: Extrapolação de Vídeo Autoregressiva em Tempo Real com GRPO de Modelo de Consistência

Resumo

Modelos de difusão de vídeo autorregressivos causais suportam a geração em streaming em tempo real ao extrapolar blocos futuros a partir do conteúdo gerado anteriormente. A destilação de tais geradores a partir de professores bidirecionais de alta fidelidade produz modelos competitivos de poucas etapas, porém uma lacuna persistente entre as distribuições históricas encontradas durante o treinamento e aquelas que surgem na inferência limita a qualidade da geração em horizontes longos. Apresentamos a Rede de Extrapolação de Vídeo Autorregressiva em Tempo Real (RAVEN), uma estrutura de teste em tempo de treinamento que reempacota cada auto-rollout em uma sequência intercalada de pontos finais históricos limpos e estados de denoising ruidosos. Essa formulação alinha a atenção de treinamento com a extrapolação em tempo de inferência e permite que perdas de blocos posteriores supervisionem as representações históricas das quais as previsões futuras dependem. Propomos ainda a Otimização Relativa de Política de Grupo Baseada em Modelos de Consistência (CM-GRPO), que reformula uma etapa de amostragem por consistência como uma transição Gaussiana condicional e aplica o Aprendizado por Reforço (RL) online diretamente a esse kernel, evitando o processo auxiliar de Euler-Maruyama adotado em formulações anteriores de RL baseadas em modelos de fluxo. Experimentos demonstram que o RAVEN supera linhas de base recentes de destilação de vídeo causal em avaliações de qualidade, semântica e grau dinâmico, e que o CM-GRPO proporciona ganhos adicionais quando combinado ao RAVEN.

English

Causal autoregressive video diffusion models support real-time streaming generation by extrapolating future chunks from previously generated content. Distilling such generators from high-fidelity bidirectional teachers yields competitive few-step models, yet a persistent gap between the history distributions encountered during training and those arising at inference constrains generation quality over long horizons. We introduce the Real-time Autoregressive Video Extrapolation Network (RAVEN), a training-time test framework that repacks each self rollout into an interleaved sequence of clean historical endpoints and noisy denoising states. This formulation aligns training attention with inference-time extrapolation and allows downstream chunk losses to supervise the history representations on which future predictions depend. We further propose Consistency-model Group Relative Policy Optimization (CM-GRPO), which reformulates a consistency sampling step as a conditional Gaussian transition and applies online Reinforcement Learning (RL) directly to this kernel, avoiding the Euler-Maruyama auxiliary process adopted in prior flow-model RL formulations. Experiments demonstrate that RAVEN surpasses recent causal video distillation baselines across quality, semantic, and dynamic degree evaluations, and that CM-GRPO provides further gains when combined with RAVEN.