KVPO: ODE-native GRPO voor autoregressieve video-uitlijning via KV semantische exploratie

Samenvatting

Het afstemmen van streamende autoregressieve (AR) videogeneratoren op menselijke voorkeuren is uitdagend. Bestaande methoden voor versterkingsleren zijn voornamelijk afhankelijk van op ruis gebaseerde exploratie en op SDE (stochastische differentiaalvergelijking) gebaseerde surrogaatbeleidsregels, die niet aansluiten bij de deterministische ODE-dynamica (gewone differentiaalvergelijking) van gedistilleerde AR-modellen, en de neiging hebben om laagniveau-uiterlijk te verstoren in plaats van de kritische hoog-niveau semantische verhaallijnvoortgang die van belang is voor coherentie over lange horizon. Om deze beperkingen aan te pakken, presenteren wij KVPO, een ODE-native online Group Relative Policy Optimization (GRPO)-raamwerk voor het afstemmen van streamende videogeneratoren. Voor diversiteitsexploratie introduceert KVPO een causaal-semantisch exploratieparadigma dat de bron van variatie verplaatst van stochastische ruis naar de historische KV-cache. Door stochastisch historische KV-entry's te routeren, worden semantisch diverse generatietakken geconstrueerd die strikt op het datamanifold blijven. Voor beleidsmodellering introduceert KVPO een snelheidsveld-surrogaatbeleid op basis van Trajectory Velocity Energy (TVE), dat de waarschijnlijkheid van takken kwantificeert in de flow-matching snelheidsruimte en leidt tot een beloningsgewogen contrastief doel dat volledig consistent is met de native ODE-formulering. Experimenten op meerdere gedistilleerde AR-videogeneratoren tonen consistente verbeteringen aan in visuele kwaliteit, bewegingskwaliteit en tekst-video-afstemming, zowel in enkelvoudige prompt korte video- als meervoudige prompt lange video-omgevingen.

English

Aligning streaming autoregressive (AR) video generators with human preferences is challenging. Existing reinforcement learning methods predominantly rely on noise-based exploration and SDE-based surrogate policies that are mismatched to the deterministic ODE dynamics of distilled AR models, and tend to perturb low-level appearance rather than the high-level semantic storyline progression critical for long-horizon coherence. To address these limitations, we present KVPO, an ODE-native online Group Relative Policy Optimization (GRPO) framework for aligning streaming video generators. For diversity exploration, KVPO introduces a causal-semantic exploration paradigm that relocates the source of variation from stochastic noise to the historical KV cache. By stochastically routing historical KV entries, it constructs semantically diverse generation branches that remain strictly on the data manifold. For policy modeling, KVPO introduces a velocity-field surrogate policy based on Trajectory Velocity Energy (TVE), which quantifies branch likelihood in flow-matching velocity space and yields a reward-weighted contrastive objective fully consistent with the native ODE formulation. Experiments on multiple distilled AR video generators demonstrate consistent gains in visual quality, motion quality, and text-video alignment across both single-prompt short-video and multi-prompt long-video settings.