KVPO: ODE-natives GRPO für autoregressive Videoausrichtung via KV-semantische Exploration

Zusammenfassung

Die Ausrichtung von autoregressiven (AR) Videogeneratoren im Streaming-Modus an menschlichen Präferenzen ist eine Herausforderung. Bestehende Methoden des Verstärkungslernens stützen sich überwiegend auf rauschbasierte Exploration und SDE-basierte Ersatz-Policies, die nicht auf die deterministischen ODE-Dynamiken destillierter AR-Modelle abgestimmt sind, und dazu neigen, die Darstellung auf niedriger Ebene zu stören, anstatt den für die langfristige Kohärenz entscheidenden semantischen Handlungsstrang auf hoher Ebene fortzuentwickeln. Um diese Einschränkungen zu überwinden, präsentieren wir KVPO, ein ODE-natives Online-Framework für die Gruppenrelativ-Policyoptimierung (GRPO) zur Ausrichtung von Streaming-Videogeneratoren. Für die Diversitätsexploration führt KVPO ein kausal-semantisches Explorationsparadigma ein, das die Variationsquelle vom stochastischen Rauschen auf den historischen KV-Cache verlagert. Durch stochastisches Routing historischer KV-Einträge werden semantisch diverse Generierungszweige konstruiert, die strikt auf der Datenmannigfaltigkeit verbleiben. Für die Policy-Modellierung führt KVPO eine Ersatz-Policy des Geschwindigkeitsfeldes ein, die auf der Trajektorien-Geschwindigkeitsenergie (TVE) basiert. Diese quantifiziert die Wahrscheinlichkeit von Zweigen im Flussabstimmungsgeschwindigkeitsraum und liefert eine belohnungsgewichtete kontrastive Zielfunktion, die vollständig mit der natives ODE-Formulierung konsistent ist. Experimente mit mehreren destillierten AR-Videogeneratoren zeigen konsistente Verbesserungen bei der visuellen Qualität, der Bewegungsqualität und der Text-Video-Ausrichtung sowohl für Einzelprompt-Kurzvideos als auch für Multiprompt-Langvideos.

English

Aligning streaming autoregressive (AR) video generators with human preferences is challenging. Existing reinforcement learning methods predominantly rely on noise-based exploration and SDE-based surrogate policies that are mismatched to the deterministic ODE dynamics of distilled AR models, and tend to perturb low-level appearance rather than the high-level semantic storyline progression critical for long-horizon coherence. To address these limitations, we present KVPO, an ODE-native online Group Relative Policy Optimization (GRPO) framework for aligning streaming video generators. For diversity exploration, KVPO introduces a causal-semantic exploration paradigm that relocates the source of variation from stochastic noise to the historical KV cache. By stochastically routing historical KV entries, it constructs semantically diverse generation branches that remain strictly on the data manifold. For policy modeling, KVPO introduces a velocity-field surrogate policy based on Trajectory Velocity Energy (TVE), which quantifies branch likelihood in flow-matching velocity space and yields a reward-weighted contrastive objective fully consistent with the native ODE formulation. Experiments on multiple distilled AR video generators demonstrate consistent gains in visual quality, motion quality, and text-video alignment across both single-prompt short-video and multi-prompt long-video settings.