Modelos de Vídeo Podem Raciocinar com Recompensas Verificáveis

Resumo

Os modelos de difusão de vídeo têm progredido rapidamente em realismo perceptual e coerência temporal, mas permanecem otimizados principalmente para geração plausível, em vez de raciocínio verificável. Essa limitação é especialmente pronunciada em tarefas nas quais os vídeos gerados devem satisfazer restrições explícitas espaciais, temporais ou lógicas. Inspirados pelo papel do aprendizado por reforço com recompensas verificáveis (RLVR) em modelos de linguagem orientados a raciocínio, apresentamos o VideoRLVR, uma receita prática para otimizar modelos de difusão de vídeo com feedback baseado em regras. O VideoRLVR formula o raciocínio de vídeo como a geração de trajetórias visuais verificáveis e consiste em um backbone de otimização SDE-GRPO, recompensas densas decompostas e uma estratégia de Foco em Etapas Iniciais para treinamento eficiente. A estratégia de Foco em Etapas Iniciais restringe a otimização da política à fase inicial de denoising, reduzindo a latência de treinamento em cerca de 40% enquanto preserva o desempenho. Avaliamos o VideoRLVR em Maze, FlowFree e Sokoban, três domínios gerados proceduralmente com critérios objetivos de sucesso. Nessas tarefas, o VideoRLVR melhora consistentemente em relação às bases de ajuste fino supervisionado, com recompensas densas decompostas mostrando-se especialmente importantes em cenários de baixa taxa de sucesso. Nosso modelo otimizado por RL também supera os modelos de geração de vídeo proprietários e de código aberto avaliados nesses benchmarks de raciocínio verificável e em benchmarks fora do domínio. Esses resultados sugerem que o RL verificável pode levar os modelos de vídeo além da imitação perceptual em direção a um raciocínio visual mais confiável e consistente com regras.

English

Video diffusion models have made rapid progress in perceptual realism and temporal coherence, but they remain primarily optimized for plausible generation rather than verifiable reasoning. This limitation is especially pronounced in tasks where generated videos must satisfy explicit spatial, temporal, or logical constraints. Inspired by the role of reinforcement learning with verifiable rewards (RLVR) in reasoning-oriented language models, we introduce VideoRLVR, a practical recipe for optimizing video diffusion models with rule-based feedback. VideoRLVR formulates video reasoning as the generation of verifiable visual trajectories and consists of an SDE-GRPO optimization backbone, dense decomposed rewards, and an Early-Step Focus strategy for efficient training. The Early-Step Focus strategy restricts policy optimization to the early denoising phase, reducing training latency by about 40% while preserving performance. We evaluate VideoRLVR on Maze, FlowFree, and Sokoban, three procedurally generated domains with objective success criteria. Across these tasks, VideoRLVR consistently improves over supervised fine-tuning baselines, with dense decomposed rewards proving especially important in low-success-rate settings. Our RL-optimized model also outperforms the evaluated proprietary and open-source video generation models on these verifiable reasoning benchmarks and out-of-domain benchmarks. These results suggest that verifiable RL can move video models beyond perceptual imitation toward more reliable rule-consistent visual reasoning.