VR-Thinker: Verbesserung von Video-Belohnungsmodellen durch Denken-mit-Bild-Argumentation
VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning
October 12, 2025
papers.authors: Qunzhong Wang, Jie Liu, Jiajun Liang, Yilei Jiang, Yuanxing Zhang, Jinyuan Chen, Yaozhi Zheng, Xintao Wang, Pengfei Wan, Xiangyu Yue, Jiaheng Liu
cs.AI
papers.abstract
Jüngste Fortschritte in multimodalen Belohnungsmodellen (RMs) haben das Post-Training für visuelle generative Modelle erheblich verbessert. Allerdings stoßen aktuelle RMs auf inhärente Grenzen: (1) visuelle Eingaben verbrauchen große Kontextbudgets, was zu weniger Bildern und einem Verlust fein abgestufter Details führt; und (2) alle visuellen Informationen werden in den initialen Prompt gepackt, was Halluzinationen und Vergessen während der Ketten-denken-Reasoning verstärkt. Um diese Probleme zu überwinden, führen wir VideoReward Thinker (VR-Thinker) ein, ein Denken-mit-Bild-Framework, das das RM mit visuellen Reasoning-Operationen (z. B. Bildauswahl) und einem konfigurierbaren visuellen Speicherfenster ausstattet. Dies ermöglicht es dem RM, aktiv visuelle Beweise innerhalb der Kontextgrenzen zu erwerben und zu aktualisieren, wodurch die Reasoning-Treue und Zuverlässigkeit verbessert werden. Wir aktivieren das visuelle Reasoning über eine Verstärkungs-Fine-Tuning-Pipeline: (i) Kaltstart mit kuratierten visuellen Ketten-denken-Daten, um grundlegende Reasoning-Fähigkeiten und Operationsformatierung zu destillieren; (ii) Auswahl von Proben, deren Urteile pro Dimension und insgesamt korrekt sind, und anschließendes Rejection-Sampling-Fine-Tuning dieser hochwertigen Spuren, um das Reasoning weiter zu verbessern; und (iii) Anwendung von Group Relative Policy Optimization (GRPO), um das Reasoning zu stärken. Unser Ansatz liefert state-of-the-art Genauigkeit unter Open-Source-Modellen auf Video-Präferenz-Benchmarks, insbesondere für längere Videos: ein 7B VR-Thinker erreicht 80,5 % auf VideoGen Reward, 82,3 % auf GenAI-Bench und 75,6 % auf MJ-Bench-Video. Diese Ergebnisse bestätigen die Wirksamkeit und das Potenzial des Denken-mit-Bild-Ansatzes für multimodale Belohnungsmodellierung.
English
Recent advancements in multimodal reward models (RMs) have substantially
improved post-training for visual generative models. However, current RMs face
inherent limitations: (1) visual inputs consume large context budgets, forcing
fewer frames and causing loss of fine-grained details; and (2) all visual
information is packed into the initial prompt, exacerbating hallucination and
forgetting during chain-of-thought reasoning. To overcome these issues, we
introduce VideoReward Thinker (VR-Thinker), a thinking-with-image framework
that equips the RM with visual reasoning operations (e.g., select frame) and a
configurable visual memory window. This allows the RM to actively acquire and
update visual evidence within context limits, improving reasoning fidelity and
reliability. We activate visual reasoning via a reinforcement fine-tuning
pipeline: (i) Cold Start with curated visual chain-of-thought data to distill
basic reasoning skills and operation formatting; (ii) select samples whose
per-dimension and overall judgments are all correct, then conduct Rejection
sampling Fine-Tuning on these high-quality traces to further enhance reasoning;
and (iii) apply Group Relative Policy Optimization (GRPO) to strengthen
reasoning. Our approach delivers state-of-the-art accuracy among open-source
models on video preference benchmarks, especially for longer videos: a 7B
VR-Thinker achieves 80.5% on VideoGen Reward, 82.3% on GenAI-Bench, and 75.6%
on MJ-Bench-Video. These results validate the effectiveness and promise of
thinking-with-image multimodal reward modeling.