ChatPaper.aiChatPaper

VR-Thinker: Verbetering van Video Beloningsmodellen door Denken-met-Beeld Redeneren

VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning

October 12, 2025
Auteurs: Qunzhong Wang, Jie Liu, Jiajun Liang, Yilei Jiang, Yuanxing Zhang, Jinyuan Chen, Yaozhi Zheng, Xintao Wang, Pengfei Wan, Xiangyu Yue, Jiaheng Liu
cs.AI

Samenvatting

Recente vooruitgang in multimodale beloningsmodellen (RMs) heeft post-training voor visuele generatieve modellen aanzienlijk verbeterd. Huidige RMs kampen echter met inherente beperkingen: (1) visuele inputs verbruiken grote contextbudgetten, waardoor minder frames worden gebruikt en fijnmazige details verloren gaan; en (2) alle visuele informatie wordt samengepakt in de initiële prompt, wat hallucinatie en vergeten tijdens keten-van-gedachten-redenering verergert. Om deze problemen te overwinnen, introduceren we VideoReward Thinker (VR-Thinker), een denken-met-beelden-framework dat de RM uitrust met visuele redeneeroperaties (bijv. frame selecteren) en een configureerbaar visueel geheugenvenster. Hierdoor kan de RM actief visueel bewijs verwerven en bijwerken binnen contextlimieten, wat de redeneernauwkeurigheid en betrouwbaarheid verbetert. We activeren visueel redeneren via een reinforcement fine-tuning-pijplijn: (i) Koude Start met gecureerde visuele keten-van-gedachten-data om basisredeneervaardigheden en operatieformattering te distilleren; (ii) selecteer samples waarvan de per-dimensie- en algehele oordelen allemaal correct zijn, voer vervolgens Rejection Sampling Fine-Tuning uit op deze hoogwaardige sporen om het redeneren verder te versterken; en (iii) pas Group Relative Policy Optimization (GRPO) toe om het redeneren te versterken. Onze aanpak levert state-of-the-art nauwkeurigheid op onder open-source modellen op video-preferentiebenchmarks, vooral voor langere video's: een 7B VR-Thinker behaalt 80,5% op VideoGen Reward, 82,3% op GenAI-Bench en 75,6% op MJ-Bench-Video. Deze resultaten valideren de effectiviteit en belofte van denken-met-beelden multimodale beloningsmodellering.
English
Recent advancements in multimodal reward models (RMs) have substantially improved post-training for visual generative models. However, current RMs face inherent limitations: (1) visual inputs consume large context budgets, forcing fewer frames and causing loss of fine-grained details; and (2) all visual information is packed into the initial prompt, exacerbating hallucination and forgetting during chain-of-thought reasoning. To overcome these issues, we introduce VideoReward Thinker (VR-Thinker), a thinking-with-image framework that equips the RM with visual reasoning operations (e.g., select frame) and a configurable visual memory window. This allows the RM to actively acquire and update visual evidence within context limits, improving reasoning fidelity and reliability. We activate visual reasoning via a reinforcement fine-tuning pipeline: (i) Cold Start with curated visual chain-of-thought data to distill basic reasoning skills and operation formatting; (ii) select samples whose per-dimension and overall judgments are all correct, then conduct Rejection sampling Fine-Tuning on these high-quality traces to further enhance reasoning; and (iii) apply Group Relative Policy Optimization (GRPO) to strengthen reasoning. Our approach delivers state-of-the-art accuracy among open-source models on video preference benchmarks, especially for longer videos: a 7B VR-Thinker achieves 80.5% on VideoGen Reward, 82.3% on GenAI-Bench, and 75.6% on MJ-Bench-Video. These results validate the effectiveness and promise of thinking-with-image multimodal reward modeling.
PDF172October 17, 2025