ChatPaper.aiChatPaper

ビデオモデルは検証可能な報酬を用いて推論できる

Video Models Can Reason with Verifiable Rewards

May 14, 2026
著者: Tinghui Zhu, Sheng Zhang, James Y. Huang, Selena Song, Xiaofei Wen, Yuankai Li, Hoifung Poon, Muhao Chen
cs.AI

要旨

ビデオ拡散モデルは、知覚的リアリズムと時間的一貫性において急速な進歩を遂げているが、依然として検証可能な推論ではなく、もっともらしい生成に主に最適化されている。この制限は、生成された動画が明示的な空間的、時間的、または論理的制約を満たさなければならないタスクにおいて特に顕著である。推論指向の言語モデルにおける検証可能な報酬を用いた強化学習(RLVR)の役割に着想を得て、我々はVideoRLVRを導入する。これは、ルールベースのフィードバックを用いてビデオ拡散モデルを最適化するための実用的な手法である。VideoRLVRは、ビデオ推論を検証可能な視覚的軌跡の生成として定式化し、SDE-GRPO最適化バックボーン、密な分解報酬、および効率的な訓練のための早期ステップ集中戦略から構成される。早期ステップ集中戦略は、政策最適化を初期のノイズ除去段階に制限し、性能を維持しながら訓練レイテンシを約40%削減する。我々は、VideoRLVRを迷路、FlowFree、倉庫番の3つの手続き的に生成されたドメインで評価する。これらは客観的な成功基準を持つ。これらのタスク全体で、VideoRLVRは教師ありファインチューニングベースラインを一貫して改善し、密な分解報酬は成功率が低い設定で特に重要であることが示された。我々のRL最適化モデルは、これらの検証可能な推論ベンチマークおよびドメイン外ベンチマークにおいて、評価対象のプロプライエタリおよびオープンソースのビデオ生成モデルをも上回る性能を示した。これらの結果は、検証可能な強化学習がビデオモデルを知覚的模倣から、より信頼性の高いルールに一貫した視覚的推論へと移行させる可能性を示唆している。
English
Video diffusion models have made rapid progress in perceptual realism and temporal coherence, but they remain primarily optimized for plausible generation rather than verifiable reasoning. This limitation is especially pronounced in tasks where generated videos must satisfy explicit spatial, temporal, or logical constraints. Inspired by the role of reinforcement learning with verifiable rewards (RLVR) in reasoning-oriented language models, we introduce VideoRLVR, a practical recipe for optimizing video diffusion models with rule-based feedback. VideoRLVR formulates video reasoning as the generation of verifiable visual trajectories and consists of an SDE-GRPO optimization backbone, dense decomposed rewards, and an Early-Step Focus strategy for efficient training. The Early-Step Focus strategy restricts policy optimization to the early denoising phase, reducing training latency by about 40% while preserving performance. We evaluate VideoRLVR on Maze, FlowFree, and Sokoban, three procedurally generated domains with objective success criteria. Across these tasks, VideoRLVR consistently improves over supervised fine-tuning baselines, with dense decomposed rewards proving especially important in low-success-rate settings. Our RL-optimized model also outperforms the evaluated proprietary and open-source video generation models on these verifiable reasoning benchmarks and out-of-domain benchmarks. These results suggest that verifiable RL can move video models beyond perceptual imitation toward more reliable rule-consistent visual reasoning.