KVPO : GRPO natif ODE pour l'alignement vidéo autorégressif via l'exploration sémantique KV

Résumé

L’alignement des générateurs vidéo autorégressifs (AR) en continu avec les préférences humaines constitue un défi. Les méthodes d’apprentissage par renforcement existantes reposent principalement sur une exploration basée sur le bruit et des politiques de substitution fondées sur des équations différentielles stochastiques (EDS) qui ne correspondent pas à la dynamique ODE déterministe des modèles AR distillés, et tendent à perturber l’apparence de bas niveau plutôt que la progression sémantique narrative de haut niveau, cruciale pour la cohérence à long horizon. Pour remédier à ces limitations, nous présentons KVPO, un cadre d’optimisation relative de politique de groupe (GRPO) natif ODE pour l’alignement des générateurs vidéo en continu. Pour l’exploration de la diversité, KVPO introduit un paradigme d’exploration causale-sémantique qui déplace la source de variation du bruit stochastique vers le cache KV historique. En routant stochastiquement les entrées KV historiques, il construit des branches de génération sémantiquement diverses qui restent strictement sur la variété des données. Pour la modélisation des politiques, KVPO introduit une politique de substitution basée sur un champ de vélocité utilisant l’énergie de vélocité de trajectoire (TVE), qui quantifie la vraisemblance des branches dans l’espace de vélocité par appariement de flux et donne un objectif contrastif pondéré par la récompense, pleinement cohérent avec la formulation ODE native. Les expériences sur plusieurs générateurs vidéo AR distillés montrent des gains constants en qualité visuelle, qualité de mouvement et alignement texte-vidéo, aussi bien dans les contextes de vidéos courtes à invite unique que de vidéos longues à invites multiples.

English

Aligning streaming autoregressive (AR) video generators with human preferences is challenging. Existing reinforcement learning methods predominantly rely on noise-based exploration and SDE-based surrogate policies that are mismatched to the deterministic ODE dynamics of distilled AR models, and tend to perturb low-level appearance rather than the high-level semantic storyline progression critical for long-horizon coherence. To address these limitations, we present KVPO, an ODE-native online Group Relative Policy Optimization (GRPO) framework for aligning streaming video generators. For diversity exploration, KVPO introduces a causal-semantic exploration paradigm that relocates the source of variation from stochastic noise to the historical KV cache. By stochastically routing historical KV entries, it constructs semantically diverse generation branches that remain strictly on the data manifold. For policy modeling, KVPO introduces a velocity-field surrogate policy based on Trajectory Velocity Energy (TVE), which quantifies branch likelihood in flow-matching velocity space and yields a reward-weighted contrastive objective fully consistent with the native ODE formulation. Experiments on multiple distilled AR video generators demonstrate consistent gains in visual quality, motion quality, and text-video alignment across both single-prompt short-video and multi-prompt long-video settings.