VR-Thinker: Aprimorando Modelos de Recompensa em Vídeo por meio do Raciocínio com Imagens

Resumo

Avanços recentes em modelos de recompensa multimodal (RMs) melhoraram substancialmente o pós-treinamento de modelos generativos visuais. No entanto, os RMs atuais enfrentam limitações intrínsecas: (1) entradas visuais consomem grandes orçamentos de contexto, forçando menos quadros e causando perda de detalhes refinados; e (2) todas as informações visuais são compactadas no prompt inicial, exacerbando alucinações e esquecimento durante o raciocínio em cadeia de pensamento. Para superar esses problemas, introduzimos o VideoReward Thinker (VR-Thinker), uma estrutura de pensamento com imagens que equipa o RM com operações de raciocínio visual (por exemplo, selecionar quadro) e uma janela de memória visual configurável. Isso permite que o RM adquira e atualize ativamente evidências visuais dentro dos limites de contexto, melhorando a fidelidade e confiabilidade do raciocínio. Ativamos o raciocínio visual por meio de um pipeline de ajuste fino por reforço: (i) Inicialização a Frio com dados curados de cadeia de pensamento visual para destilar habilidades básicas de raciocínio e formatação de operações; (ii) selecionar amostras cujos julgamentos por dimensão e gerais estão todos corretos, então realizar Ajuste Fino por Amostragem de Rejeição nessas trilhas de alta qualidade para aprimorar ainda mais o raciocínio; e (iii) aplicar a Otimização de Política Relativa em Grupo (GRPO) para fortalecer o raciocínio. Nossa abordagem alcança precisão de ponta entre modelos de código aberto em benchmarks de preferência de vídeo, especialmente para vídeos mais longos: um VR-Thinker de 7B atinge 80,5% no VideoGen Reward, 82,3% no GenAI-Bench e 75,6% no MJ-Bench-Video. Esses resultados validam a eficácia e promessa da modelagem de recompensa multimodal com pensamento com imagens.

English

Recent advancements in multimodal reward models (RMs) have substantially improved post-training for visual generative models. However, current RMs face inherent limitations: (1) visual inputs consume large context budgets, forcing fewer frames and causing loss of fine-grained details; and (2) all visual information is packed into the initial prompt, exacerbating hallucination and forgetting during chain-of-thought reasoning. To overcome these issues, we introduce VideoReward Thinker (VR-Thinker), a thinking-with-image framework that equips the RM with visual reasoning operations (e.g., select frame) and a configurable visual memory window. This allows the RM to actively acquire and update visual evidence within context limits, improving reasoning fidelity and reliability. We activate visual reasoning via a reinforcement fine-tuning pipeline: (i) Cold Start with curated visual chain-of-thought data to distill basic reasoning skills and operation formatting; (ii) select samples whose per-dimension and overall judgments are all correct, then conduct Rejection sampling Fine-Tuning on these high-quality traces to further enhance reasoning; and (iii) apply Group Relative Policy Optimization (GRPO) to strengthen reasoning. Our approach delivers state-of-the-art accuracy among open-source models on video preference benchmarks, especially for longer videos: a 7B VR-Thinker achieves 80.5% on VideoGen Reward, 82.3% on GenAI-Bench, and 75.6% on MJ-Bench-Video. These results validate the effectiveness and promise of thinking-with-image multimodal reward modeling.

VR-Thinker: Aprimorando Modelos de Recompensa em Vídeo por meio do Raciocínio com Imagens

VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning

Resumo

Support