KVPO: GRPO Nativo de EDO para Alinhamento de Vídeo Autorregressivo via Exploração Semântica KV

Resumo

Alinhar geradores de vídeo autoregressivos (AR) em streaming com preferências humanas é desafiador. Métodos existentes de aprendizado por reforço dependem predominantemente de exploração baseada em ruído e políticas substitutas baseadas em EDE que são incompatíveis com a dinâmica determinística de EDO dos modelos AR destilados, e tendem a perturbar a aparência de baixo nível, em vez da progressão semântica de alto nível da narrativa, crítica para a coerência de longo horizonte. Para abordar essas limitações, apresentamos o KVPO, uma estrutura de Otimização Relativa de Política em Grupo (GRPO) nativa de EDO para alinhar geradores de vídeo em streaming. Para exploração de diversidade, o KVPO introduz um paradigma de exploração semântico-causal que realoca a fonte de variação do ruído estocástico para o cache KV histórico. Ao rotear estocasticamente entradas KV históricas, ele constrói ramos de geração semanticamente diversos que permanecem estritamente na variedade de dados. Para modelagem de política, o KVPO introduz uma política substituta de campo de velocidade baseada na Energia de Velocidade de Trajetória (TVE), que quantifica a probabilidade dos ramos no espaço de velocidade de correspondência de fluxo e produz um objetivo contrastivo ponderado por recompensa totalmente consistente com a formulação nativa de EDO. Experimentos em múltiplos geradores de vídeo AR destilados demonstram ganhos consistentes em qualidade visual, qualidade de movimento e alinhamento texto-vídeo, tanto em configurações de vídeo curto com prompt único quanto de vídeo longo com múltiplos prompts.

English

Aligning streaming autoregressive (AR) video generators with human preferences is challenging. Existing reinforcement learning methods predominantly rely on noise-based exploration and SDE-based surrogate policies that are mismatched to the deterministic ODE dynamics of distilled AR models, and tend to perturb low-level appearance rather than the high-level semantic storyline progression critical for long-horizon coherence. To address these limitations, we present KVPO, an ODE-native online Group Relative Policy Optimization (GRPO) framework for aligning streaming video generators. For diversity exploration, KVPO introduces a causal-semantic exploration paradigm that relocates the source of variation from stochastic noise to the historical KV cache. By stochastically routing historical KV entries, it constructs semantically diverse generation branches that remain strictly on the data manifold. For policy modeling, KVPO introduces a velocity-field surrogate policy based on Trajectory Velocity Energy (TVE), which quantifies branch likelihood in flow-matching velocity space and yields a reward-weighted contrastive objective fully consistent with the native ODE formulation. Experiments on multiple distilled AR video generators demonstrate consistent gains in visual quality, motion quality, and text-video alignment across both single-prompt short-video and multi-prompt long-video settings.