Videomodelle können mit verifizierbaren Belohnungen schlussfolgern

Zusammenfassung

Videodiffusionsmodelle haben schnelle Fortschritte in der wahrnehmungsbezogenen Realität und zeitlichen Kohärenz erzielt, bleiben jedoch primär auf plausible Generierung statt auf verifizierbare Schlussfolgerungen optimiert. Diese Einschränkung tritt besonders bei Aufgaben hervor, bei denen generierte Videos explizite räumliche, zeitliche oder logische Randbedingungen erfüllen müssen. Inspiriert von der Rolle des bestärkenden Lernens mit verifizierbaren Belohnungen (RLVR) in schlussfolgerungsorientierten Sprachmodellen führen wir VideoRLVR ein, ein praktisches Rezept zur Optimierung von Videodiffusionsmodellen mit regelbasiertem Feedback. VideoRLVR formuliert videobasierte Schlussfolgerung als Generierung verifizierbarer visueller Trajektorien und besteht aus einem SDE-GRPO-Optimierungskern, dichten zerlegten Belohnungen und einer Early-Step-Focus-Strategie für effizientes Training. Die Early-Step-Focus-Strategie beschränkt die Politikoptimierung auf die frühe Denoising-Phase, reduziert die Trainingslatenz um etwa 40% und bewahrt dabei die Leistungsfähigkeit. Wir evaluieren VideoRLVR in Maze, FlowFree und Sokoban, drei prozedural generierten Domänen mit objektiven Erfolgskriterien. In diesen Aufgaben verbessert VideoRLVR durchgängig die Ergebnisse im Vergleich zu überwachten Feintuning-Baselines, wobei sich dichte zerlegte Belohnungen besonders in Szenarien mit niedriger Erfolgsrate als wichtig erweisen. Unser RL-optimiertes Modell übertrifft auch die bewerteten proprietären und Open-Source-Videogenerierungsmodelle in diesen verifizierbaren Schlussfolgerungs-Benchmarks und außerdomänlichen Benchmarks. Diese Ergebnisse deuten darauf hin, dass verifizierbares RL Videomodelle über wahrnehmungsbezogene Nachahmung hinaus zu zuverlässigerer regelkonformer visueller Schlussfolgerung führen kann.

English

Video diffusion models have made rapid progress in perceptual realism and temporal coherence, but they remain primarily optimized for plausible generation rather than verifiable reasoning. This limitation is especially pronounced in tasks where generated videos must satisfy explicit spatial, temporal, or logical constraints. Inspired by the role of reinforcement learning with verifiable rewards (RLVR) in reasoning-oriented language models, we introduce VideoRLVR, a practical recipe for optimizing video diffusion models with rule-based feedback. VideoRLVR formulates video reasoning as the generation of verifiable visual trajectories and consists of an SDE-GRPO optimization backbone, dense decomposed rewards, and an Early-Step Focus strategy for efficient training. The Early-Step Focus strategy restricts policy optimization to the early denoising phase, reducing training latency by about 40% while preserving performance. We evaluate VideoRLVR on Maze, FlowFree, and Sokoban, three procedurally generated domains with objective success criteria. Across these tasks, VideoRLVR consistently improves over supervised fine-tuning baselines, with dense decomposed rewards proving especially important in low-success-rate settings. Our RL-optimized model also outperforms the evaluated proprietary and open-source video generation models on these verifiable reasoning benchmarks and out-of-domain benchmarks. These results suggest that verifiable RL can move video models beyond perceptual imitation toward more reliable rule-consistent visual reasoning.