VR-Thinker: Aprimorando Modelos de Recompensa em Vídeo por meio do Raciocínio com Imagens
VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning
October 12, 2025
Autores: Qunzhong Wang, Jie Liu, Jiajun Liang, Yilei Jiang, Yuanxing Zhang, Jinyuan Chen, Yaozhi Zheng, Xintao Wang, Pengfei Wan, Xiangyu Yue, Jiaheng Liu
cs.AI
Resumo
Avanços recentes em modelos de recompensa multimodal (RMs) melhoraram substancialmente o pós-treinamento de modelos generativos visuais. No entanto, os RMs atuais enfrentam limitações intrínsecas: (1) entradas visuais consomem grandes orçamentos de contexto, forçando menos quadros e causando perda de detalhes refinados; e (2) todas as informações visuais são compactadas no prompt inicial, exacerbando alucinações e esquecimento durante o raciocínio em cadeia de pensamento. Para superar esses problemas, introduzimos o VideoReward Thinker (VR-Thinker), uma estrutura de pensamento com imagens que equipa o RM com operações de raciocínio visual (por exemplo, selecionar quadro) e uma janela de memória visual configurável. Isso permite que o RM adquira e atualize ativamente evidências visuais dentro dos limites de contexto, melhorando a fidelidade e confiabilidade do raciocínio. Ativamos o raciocínio visual por meio de um pipeline de ajuste fino por reforço: (i) Inicialização a Frio com dados curados de cadeia de pensamento visual para destilar habilidades básicas de raciocínio e formatação de operações; (ii) selecionar amostras cujos julgamentos por dimensão e gerais estão todos corretos, então realizar Ajuste Fino por Amostragem de Rejeição nessas trilhas de alta qualidade para aprimorar ainda mais o raciocínio; e (iii) aplicar a Otimização de Política Relativa em Grupo (GRPO) para fortalecer o raciocínio. Nossa abordagem alcança precisão de ponta entre modelos de código aberto em benchmarks de preferência de vídeo, especialmente para vídeos mais longos: um VR-Thinker de 7B atinge 80,5% no VideoGen Reward, 82,3% no GenAI-Bench e 75,6% no MJ-Bench-Video. Esses resultados validam a eficácia e promessa da modelagem de recompensa multimodal com pensamento com imagens.
English
Recent advancements in multimodal reward models (RMs) have substantially
improved post-training for visual generative models. However, current RMs face
inherent limitations: (1) visual inputs consume large context budgets, forcing
fewer frames and causing loss of fine-grained details; and (2) all visual
information is packed into the initial prompt, exacerbating hallucination and
forgetting during chain-of-thought reasoning. To overcome these issues, we
introduce VideoReward Thinker (VR-Thinker), a thinking-with-image framework
that equips the RM with visual reasoning operations (e.g., select frame) and a
configurable visual memory window. This allows the RM to actively acquire and
update visual evidence within context limits, improving reasoning fidelity and
reliability. We activate visual reasoning via a reinforcement fine-tuning
pipeline: (i) Cold Start with curated visual chain-of-thought data to distill
basic reasoning skills and operation formatting; (ii) select samples whose
per-dimension and overall judgments are all correct, then conduct Rejection
sampling Fine-Tuning on these high-quality traces to further enhance reasoning;
and (iii) apply Group Relative Policy Optimization (GRPO) to strengthen
reasoning. Our approach delivers state-of-the-art accuracy among open-source
models on video preference benchmarks, especially for longer videos: a 7B
VR-Thinker achieves 80.5% on VideoGen Reward, 82.3% on GenAI-Bench, and 75.6%
on MJ-Bench-Video. These results validate the effectiveness and promise of
thinking-with-image multimodal reward modeling.