Videomodellen kunnen redeneren met verifieerbare beloningen

Samenvatting

Videodiffusiemodellen hebben snelle vooruitgang geboekt op het gebied van perceptueel realisme en temporele coherentie, maar ze blijven primair geoptimaliseerd voor plausibele generatie in plaats van verifieerbaar redeneren. Deze beperking is bijzonder uitgesproken bij taken waarbij gegenereerde video's moeten voldoen aan expliciete ruimtelijke, temporele of logische beperkingen. Geïnspireerd door de rol van versterkend leren met verifieerbare beloningen (RLVR) in redeneergerichte taalmodellen, introduceren we VideoRLVR, een praktische aanpak voor het optimaliseren van videodiffusiemodellen met regelgebaseerde feedback. VideoRLVR formuleert videoredeneren als het genereren van verifieerbare visuele trajecten en bestaat uit een SDE-GRPO-optimalisatiekern, dichte ontleedde beloningen en een strategie voor focus op vroege stappen (Early-Step Focus) voor efficiënte training. De strategie voor focus op vroege stappen beperkt beleidsoptimalisatie tot de vroege diffunderingsfase, waardoor de trainingslatentie met ongeveer 40% afneemt terwijl de prestaties behouden blijven. We evalueren VideoRLVR op Maze, FlowFree en Sokoban, drie procedureel gegenereerde domeinen met objectieve succescriteria. Bij al deze taken verbetert VideoRLVR consequent ten opzichte van gesuperviseerde finetuning-baselines, waarbij dichte ontleedde beloningen bijzonder belangrijk blijken in situaties met een laag slagingspercentage. Ons RL-geoptimaliseerde model presteert ook beter dan de geëvalueerde propriëtaire en opensource videogeneratiemodellen op deze verifieerbare redeneerbenchmarks en out-of-domein benchmarks. Deze resultaten suggereren dat verifieerbaar RL videomodellen verder kan brengen dan perceptuele nabootsing in de richting van betrouwbaarder, regelconsistent visueel redeneren.

English

Video diffusion models have made rapid progress in perceptual realism and temporal coherence, but they remain primarily optimized for plausible generation rather than verifiable reasoning. This limitation is especially pronounced in tasks where generated videos must satisfy explicit spatial, temporal, or logical constraints. Inspired by the role of reinforcement learning with verifiable rewards (RLVR) in reasoning-oriented language models, we introduce VideoRLVR, a practical recipe for optimizing video diffusion models with rule-based feedback. VideoRLVR formulates video reasoning as the generation of verifiable visual trajectories and consists of an SDE-GRPO optimization backbone, dense decomposed rewards, and an Early-Step Focus strategy for efficient training. The Early-Step Focus strategy restricts policy optimization to the early denoising phase, reducing training latency by about 40% while preserving performance. We evaluate VideoRLVR on Maze, FlowFree, and Sokoban, three procedurally generated domains with objective success criteria. Across these tasks, VideoRLVR consistently improves over supervised fine-tuning baselines, with dense decomposed rewards proving especially important in low-success-rate settings. Our RL-optimized model also outperforms the evaluated proprietary and open-source video generation models on these verifiable reasoning benchmarks and out-of-domain benchmarks. These results suggest that verifiable RL can move video models beyond perceptual imitation toward more reliable rule-consistent visual reasoning.