Видеомодели могут рассуждать с помощью верифицируемых вознаграждений

Аннотация

Видеодиффузионные модели достигли значительного прогресса в перцептивном реализме и временной согласованности, однако они по-прежнему оптимизированы в первую очередь для правдоподобной генерации, а не для проверяемых рассуждений. Это ограничение особенно ярко проявляется в задачах, где сгенерированные видео должны удовлетворять явным пространственным, временным или логическим ограничениям. Вдохновившись ролью обучения с подкреплением с верифицируемыми вознаграждениями (RLVR) в ориентированных на рассуждение языковых моделях, мы представляем VideoRLVR — практичный рецепт для оптимизации видеодиффузионных моделей с помощью правил-ориентированной обратной связи. VideoRLVR формулирует видеорассуждение как генерацию верифицируемых визуальных траекторий и включает в себя базовый оптимизационный подход SDE-GRPO, плотные декомпозированные вознаграждения и стратегию фокусировки на ранних шагах (Early-Step Focus) для эффективного обучения. Стратегия фокусировки на ранних шагах ограничивает оптимизацию политики начальной фазой удаления шума, сокращая время обучения примерно на 40% при сохранении производительности. Мы оцениваем VideoRLVR на задачах Maze, FlowFree и Sokoban — трех процедурно-генерируемых доменах с объективными критериями успеха. Во всех этих задачах VideoRLVR последовательно превосходит базовые модели, обученные с помощью управляемого дообучения, причем плотные декомпозированные вознаграждения особенно важны в сценариях с низкой долей успешных исходов. Наша модель, оптимизированная с помощью RL, также превосходит оцениваемые проприетарные и открытые модели генерации видео на этих бенчмарках проверяемых рассуждений и на внемагистральных тестах. Эти результаты позволяют предположить, что верифицируемое RL способно перевести видеомодели от перцептивной имитации к более надёжному правилам-согласованному визуальному рассуждению.

English

Video diffusion models have made rapid progress in perceptual realism and temporal coherence, but they remain primarily optimized for plausible generation rather than verifiable reasoning. This limitation is especially pronounced in tasks where generated videos must satisfy explicit spatial, temporal, or logical constraints. Inspired by the role of reinforcement learning with verifiable rewards (RLVR) in reasoning-oriented language models, we introduce VideoRLVR, a practical recipe for optimizing video diffusion models with rule-based feedback. VideoRLVR formulates video reasoning as the generation of verifiable visual trajectories and consists of an SDE-GRPO optimization backbone, dense decomposed rewards, and an Early-Step Focus strategy for efficient training. The Early-Step Focus strategy restricts policy optimization to the early denoising phase, reducing training latency by about 40% while preserving performance. We evaluate VideoRLVR on Maze, FlowFree, and Sokoban, three procedurally generated domains with objective success criteria. Across these tasks, VideoRLVR consistently improves over supervised fine-tuning baselines, with dense decomposed rewards proving especially important in low-success-rate settings. Our RL-optimized model also outperforms the evaluated proprietary and open-source video generation models on these verifiable reasoning benchmarks and out-of-domain benchmarks. These results suggest that verifiable RL can move video models beyond perceptual imitation toward more reliable rule-consistent visual reasoning.