Les modèles vidéo peuvent raisonner avec des récompenses vérifiables

Résumé

Les modèles de diffusion vidéo ont réalisé des progrès rapides en termes de réalisme perceptuel et de cohérence temporelle, mais ils demeurent principalement optimisés pour une génération plausible plutôt que pour un raisonnement vérifiable. Cette limitation est particulièrement prononcée dans les tâches où les vidéos générées doivent satisfaire des contraintes spatiales, temporelles ou logiques explicites. Inspirés par le rôle de l'apprentissage par renforcement avec récompenses vérifiables (RLVR) dans les modèles de langage orientés raisonnement, nous introduisons VideoRLVR, une approche pratique pour optimiser les modèles de diffusion vidéo à l'aide d'un retour fondé sur des règles. VideoRLVR formule le raisonnement vidéo comme la génération de trajectoires visuelles vérifiables et se compose d'un noyau d'optimisation SDE-GRPO, de récompenses denses décomposées et d'une stratégie de focalisation sur les premières étapes (Early-Step Focus) pour un entraînement efficace. Cette stratégie restreint l'optimisation de la politique à la phase précoce de débruitage, réduisant la latence d'entraînement d'environ 40 % tout en préservant les performances. Nous évaluons VideoRLVR sur Maze, FlowFree et Sokoban, trois domaines générés procéduralement avec des critères de succès objectifs. Dans ces tâches, VideoRLVR améliore constamment les bases de référence du fine-tuning supervisé, les récompenses denses décomposées s'avérant particulièrement importantes dans les contextes à faible taux de réussite. Notre modèle optimisé par RL surpasse également les modèles de génération vidéo propriétaires et open source évalués sur ces benchmarks de raisonnement vérifiable ainsi que sur des benchmarks hors domaine. Ces résultats suggèrent que la RL vérifiable peut faire évoluer les modèles vidéo au-delà de l'imitation perceptuelle vers un raisonnement visuel plus fiable et conforme aux règles.

English

Video diffusion models have made rapid progress in perceptual realism and temporal coherence, but they remain primarily optimized for plausible generation rather than verifiable reasoning. This limitation is especially pronounced in tasks where generated videos must satisfy explicit spatial, temporal, or logical constraints. Inspired by the role of reinforcement learning with verifiable rewards (RLVR) in reasoning-oriented language models, we introduce VideoRLVR, a practical recipe for optimizing video diffusion models with rule-based feedback. VideoRLVR formulates video reasoning as the generation of verifiable visual trajectories and consists of an SDE-GRPO optimization backbone, dense decomposed rewards, and an Early-Step Focus strategy for efficient training. The Early-Step Focus strategy restricts policy optimization to the early denoising phase, reducing training latency by about 40% while preserving performance. We evaluate VideoRLVR on Maze, FlowFree, and Sokoban, three procedurally generated domains with objective success criteria. Across these tasks, VideoRLVR consistently improves over supervised fine-tuning baselines, with dense decomposed rewards proving especially important in low-success-rate settings. Our RL-optimized model also outperforms the evaluated proprietary and open-source video generation models on these verifiable reasoning benchmarks and out-of-domain benchmarks. These results suggest that verifiable RL can move video models beyond perceptual imitation toward more reliable rule-consistent visual reasoning.