KVPO: GRPO ODE-Nativo para el Alineamiento de Video Autorregresivo mediante Exploración Semántica de KV

Resumen

Alinear generadores de video autorregresivos (AR) en streaming con las preferencias humanas es un desafío. Los métodos existentes de aprendizaje por refuerzo dependen principalmente de la exploración basada en ruido y de políticas sustitutas basadas en EDE que no se corresponden con la dinámica determinista de EDO de los modelos AR destilados, y tienden a perturbar la apariencia de bajo nivel en lugar de la progresión de la trama semántica de alto nivel, crucial para la coherencia a largo plazo. Para abordar estas limitaciones, presentamos KVPO, un marco nativo de EDO de Optimización Relativa de Políticas en Grupo (GRPO) en línea para alinear generadores de video en streaming. Para la exploración de diversidad, KVPO introduce un paradigma de exploración semántico-causal que reubica la fuente de variación del ruido estocástico al caché KV histórico. Mediante el enrutamiento estocástico de entradas KV históricas, se construyen ramas de generación semánticamente diversas que permanecen estrictamente en la variedad de datos. Para el modelado de políticas, KVPO introduce una política sustituta de campo de velocidad basada en la Energía de Velocidad de Trayectoria (TVE), que cuantifica la probabilidad de las ramas en el espacio de velocidad de correspondencia de flujo y genera un objetivo contrastivo ponderado por recompensa totalmente consistente con la formulación nativa de EDO. Experimentos en múltiples generadores de video AR destilados demuestran mejoras consistentes en calidad visual, calidad de movimiento y alineación texto-video tanto en entornos de video corto con una sola indicación como en video largo con múltiples indicaciones.

English

Aligning streaming autoregressive (AR) video generators with human preferences is challenging. Existing reinforcement learning methods predominantly rely on noise-based exploration and SDE-based surrogate policies that are mismatched to the deterministic ODE dynamics of distilled AR models, and tend to perturb low-level appearance rather than the high-level semantic storyline progression critical for long-horizon coherence. To address these limitations, we present KVPO, an ODE-native online Group Relative Policy Optimization (GRPO) framework for aligning streaming video generators. For diversity exploration, KVPO introduces a causal-semantic exploration paradigm that relocates the source of variation from stochastic noise to the historical KV cache. By stochastically routing historical KV entries, it constructs semantically diverse generation branches that remain strictly on the data manifold. For policy modeling, KVPO introduces a velocity-field surrogate policy based on Trajectory Velocity Energy (TVE), which quantifies branch likelihood in flow-matching velocity space and yields a reward-weighted contrastive objective fully consistent with the native ODE formulation. Experiments on multiple distilled AR video generators demonstrate consistent gains in visual quality, motion quality, and text-video alignment across both single-prompt short-video and multi-prompt long-video settings.