Los modelos de video pueden razonar con recompensas verificables

Resumen

Los modelos de difusión de video han avanzado rápidamente en realismo perceptivo y coherencia temporal, pero siguen optimizados principalmente para la generación plausible en lugar del razonamiento verificable. Esta limitación es especialmente notable en tareas donde los videos generados deben satisfacer restricciones explícitas de tipo espacial, temporal o lógico. Inspirándonos en el papel del aprendizaje por refuerzo con recompensas verificables (RLVR) en los modelos de lenguaje orientados al razonamiento, presentamos VideoRLVR, una receta práctica para optimizar modelos de difusión de video con retroalimentación basada en reglas. VideoRLVR formula el razonamiento en video como la generación de trayectorias visuales verificables y consta de un núcleo de optimización SDE-GRPO, recompensas densas descompuestas y una estrategia de Enfoque en Pasos Tempranos para un entrenamiento eficiente. La estrategia de Enfoque en Pasos Tempranos restringe la optimización de la política a la fase temprana de eliminación de ruido, reduciendo la latencia de entrenamiento en aproximadamente un 40% mientras preserva el rendimiento. Evaluamos VideoRLVR en Maze, FlowFree y Sokoban, tres dominios generados proceduralmente con criterios objetivos de éxito. En estas tareas, VideoRLVR mejora consistentemente las líneas base de ajuste fino supervisado, siendo las recompensas densas descompuestas especialmente importantes en escenarios con bajas tasas de éxito. Nuestro modelo optimizado con RL también supera a los modelos de generación de video evaluados, tanto propietarios como de código abierto, en estos puntos de referencia de razonamiento verificable y en puntos de referencia fuera del dominio. Estos resultados sugieren que el RL verificable puede llevar a los modelos de video más allá de la imitación perceptiva hacia un razonamiento visual más confiable y consistente con las reglas.

English

Video diffusion models have made rapid progress in perceptual realism and temporal coherence, but they remain primarily optimized for plausible generation rather than verifiable reasoning. This limitation is especially pronounced in tasks where generated videos must satisfy explicit spatial, temporal, or logical constraints. Inspired by the role of reinforcement learning with verifiable rewards (RLVR) in reasoning-oriented language models, we introduce VideoRLVR, a practical recipe for optimizing video diffusion models with rule-based feedback. VideoRLVR formulates video reasoning as the generation of verifiable visual trajectories and consists of an SDE-GRPO optimization backbone, dense decomposed rewards, and an Early-Step Focus strategy for efficient training. The Early-Step Focus strategy restricts policy optimization to the early denoising phase, reducing training latency by about 40% while preserving performance. We evaluate VideoRLVR on Maze, FlowFree, and Sokoban, three procedurally generated domains with objective success criteria. Across these tasks, VideoRLVR consistently improves over supervised fine-tuning baselines, with dense decomposed rewards proving especially important in low-success-rate settings. Our RL-optimized model also outperforms the evaluated proprietary and open-source video generation models on these verifiable reasoning benchmarks and out-of-domain benchmarks. These results suggest that verifiable RL can move video models beyond perceptual imitation toward more reliable rule-consistent visual reasoning.