KVPO: ODE-Native GRPO для авторегрессивного выравнивания видео посредством семантического исследования KV

Аннотация

Согласование потоковых авторегрессионных (AR) генераторов видео с человеческими предпочтениями является сложной задачей. Существующие методы обучения с подкреплением в основном полагаются на шумовое исследование и суррогатные политики на основе стохастических дифференциальных уравнений (СДУ), которые не соответствуют детерминистической динамике обыкновенных дифференциальных уравнений (ОДУ) дистиллированных AR-моделей и склонны возмущать низкоуровневый внешний вид, а не высокоуровневое семантическое развитие сюжета, критически важное для долгосрочной связности. Чтобы преодолеть эти ограничения, мы представляем KVPO — встроенную в ОДУ онлайн-структуру групповой относительной оптимизации политики (GRPO) для согласования потоковых генераторов видео. Для диверсификации разведки KVPO вводит каузально-семантическую парадигму разведки, которая переносит источник вариаций со стохастического шума на исторический KV-кэш. Путем стохастической маршрутизации исторических KV-записей строятся семантически разнообразные ветви генерации, которые строго остаются на многообразии данных. Для моделирования политики KVPO вводит суррогатную политику поля скорости на основе Энергии Траекторной Скорости (TVE), которая количественно оценивает вероятность ветви в пространстве скоростей согласования потока и дает контрастную целевую функцию, взвешенную по вознаграждению, полностью согласованную с исходной формулировкой ОДУ. Эксперименты на нескольких дистиллированных AR-генераторах видео демонстрируют устойчивое улучшение визуального качества, качества движения и согласования текста и видео как в режиме одиночного запроса для коротких видео, так и в режиме множественных запросов для длинных видео.

English

Aligning streaming autoregressive (AR) video generators with human preferences is challenging. Existing reinforcement learning methods predominantly rely on noise-based exploration and SDE-based surrogate policies that are mismatched to the deterministic ODE dynamics of distilled AR models, and tend to perturb low-level appearance rather than the high-level semantic storyline progression critical for long-horizon coherence. To address these limitations, we present KVPO, an ODE-native online Group Relative Policy Optimization (GRPO) framework for aligning streaming video generators. For diversity exploration, KVPO introduces a causal-semantic exploration paradigm that relocates the source of variation from stochastic noise to the historical KV cache. By stochastically routing historical KV entries, it constructs semantically diverse generation branches that remain strictly on the data manifold. For policy modeling, KVPO introduces a velocity-field surrogate policy based on Trajectory Velocity Energy (TVE), which quantifies branch likelihood in flow-matching velocity space and yields a reward-weighted contrastive objective fully consistent with the native ODE formulation. Experiments on multiple distilled AR video generators demonstrate consistent gains in visual quality, motion quality, and text-video alignment across both single-prompt short-video and multi-prompt long-video settings.