VR-Thinker: Verbetering van Video Beloningsmodellen door Denken-met-Beeld Redeneren
VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning
October 12, 2025
Auteurs: Qunzhong Wang, Jie Liu, Jiajun Liang, Yilei Jiang, Yuanxing Zhang, Jinyuan Chen, Yaozhi Zheng, Xintao Wang, Pengfei Wan, Xiangyu Yue, Jiaheng Liu
cs.AI
Samenvatting
Recente vooruitgang in multimodale beloningsmodellen (RMs) heeft post-training voor visuele generatieve modellen aanzienlijk verbeterd. Huidige RMs kampen echter met inherente beperkingen: (1) visuele inputs verbruiken grote contextbudgetten, waardoor minder frames worden gebruikt en fijnmazige details verloren gaan; en (2) alle visuele informatie wordt samengepakt in de initiële prompt, wat hallucinatie en vergeten tijdens keten-van-gedachten-redenering verergert. Om deze problemen te overwinnen, introduceren we VideoReward Thinker (VR-Thinker), een denken-met-beelden-framework dat de RM uitrust met visuele redeneeroperaties (bijv. frame selecteren) en een configureerbaar visueel geheugenvenster. Hierdoor kan de RM actief visueel bewijs verwerven en bijwerken binnen contextlimieten, wat de redeneernauwkeurigheid en betrouwbaarheid verbetert. We activeren visueel redeneren via een reinforcement fine-tuning-pijplijn: (i) Koude Start met gecureerde visuele keten-van-gedachten-data om basisredeneervaardigheden en operatieformattering te distilleren; (ii) selecteer samples waarvan de per-dimensie- en algehele oordelen allemaal correct zijn, voer vervolgens Rejection Sampling Fine-Tuning uit op deze hoogwaardige sporen om het redeneren verder te versterken; en (iii) pas Group Relative Policy Optimization (GRPO) toe om het redeneren te versterken. Onze aanpak levert state-of-the-art nauwkeurigheid op onder open-source modellen op video-preferentiebenchmarks, vooral voor langere video's: een 7B VR-Thinker behaalt 80,5% op VideoGen Reward, 82,3% op GenAI-Bench en 75,6% op MJ-Bench-Video. Deze resultaten valideren de effectiviteit en belofte van denken-met-beelden multimodale beloningsmodellering.
English
Recent advancements in multimodal reward models (RMs) have substantially
improved post-training for visual generative models. However, current RMs face
inherent limitations: (1) visual inputs consume large context budgets, forcing
fewer frames and causing loss of fine-grained details; and (2) all visual
information is packed into the initial prompt, exacerbating hallucination and
forgetting during chain-of-thought reasoning. To overcome these issues, we
introduce VideoReward Thinker (VR-Thinker), a thinking-with-image framework
that equips the RM with visual reasoning operations (e.g., select frame) and a
configurable visual memory window. This allows the RM to actively acquire and
update visual evidence within context limits, improving reasoning fidelity and
reliability. We activate visual reasoning via a reinforcement fine-tuning
pipeline: (i) Cold Start with curated visual chain-of-thought data to distill
basic reasoning skills and operation formatting; (ii) select samples whose
per-dimension and overall judgments are all correct, then conduct Rejection
sampling Fine-Tuning on these high-quality traces to further enhance reasoning;
and (iii) apply Group Relative Policy Optimization (GRPO) to strengthen
reasoning. Our approach delivers state-of-the-art accuracy among open-source
models on video preference benchmarks, especially for longer videos: a 7B
VR-Thinker achieves 80.5% on VideoGen Reward, 82.3% on GenAI-Bench, and 75.6%
on MJ-Bench-Video. These results validate the effectiveness and promise of
thinking-with-image multimodal reward modeling.