VR-Thinker : Amélioration des modèles de récompense vidéo par le raisonnement avec l'image
VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning
October 12, 2025
papers.authors: Qunzhong Wang, Jie Liu, Jiajun Liang, Yilei Jiang, Yuanxing Zhang, Jinyuan Chen, Yaozhi Zheng, Xintao Wang, Pengfei Wan, Xiangyu Yue, Jiaheng Liu
cs.AI
papers.abstract
Les avancées récentes dans les modèles de récompense multimodaux (RMs) ont considérablement amélioré l’après-entraînement des modèles génératifs visuels. Cependant, les RMs actuels présentent des limitations inhérentes : (1) les entrées visuelles consomment un budget de contexte important, limitant le nombre de trames et entraînant une perte de détails fins ; et (2) toutes les informations visuelles sont intégrées dans l’invite initiale, exacerbant les hallucinations et les oublis lors du raisonnement en chaîne de pensée. Pour surmonter ces problèmes, nous introduisons VideoReward Thinker (VR-Thinker), un cadre de pensée avec images qui équipe le RM d’opérations de raisonnement visuel (par exemple, sélection de trame) et d’une fenêtre de mémoire visuelle configurable. Cela permet au RM d’acquérir et de mettre à jour activement les preuves visuelles dans les limites du contexte, améliorant ainsi la fidélité et la fiabilité du raisonnement. Nous activons le raisonnement visuel via un pipeline de réglage fin par renforcement : (i) Démarrage à froid avec des données de chaîne de pensée visuelle soigneusement sélectionnées pour distiller les compétences de raisonnement de base et le formatage des opérations ; (ii) sélection des échantillons dont les jugements par dimension et globaux sont tous corrects, puis réalisation d’un réglage fin par échantillonnage de rejet sur ces traces de haute qualité pour renforcer davantage le raisonnement ; et (iii) application de l’Optimisation Relative de Politique par Groupe (GRPO) pour renforcer le raisonnement. Notre approche atteint une précision de pointe parmi les modèles open-source sur les benchmarks de préférence vidéo, en particulier pour les vidéos plus longues : un VR-Thinker de 7B atteint 80,5 % sur VideoGen Reward, 82,3 % sur GenAI-Bench et 75,6 % sur MJ-Bench-Video. Ces résultats valident l’efficacité et la promesse de la modélisation de récompense multimodale avec pensée par images.
English
Recent advancements in multimodal reward models (RMs) have substantially
improved post-training for visual generative models. However, current RMs face
inherent limitations: (1) visual inputs consume large context budgets, forcing
fewer frames and causing loss of fine-grained details; and (2) all visual
information is packed into the initial prompt, exacerbating hallucination and
forgetting during chain-of-thought reasoning. To overcome these issues, we
introduce VideoReward Thinker (VR-Thinker), a thinking-with-image framework
that equips the RM with visual reasoning operations (e.g., select frame) and a
configurable visual memory window. This allows the RM to actively acquire and
update visual evidence within context limits, improving reasoning fidelity and
reliability. We activate visual reasoning via a reinforcement fine-tuning
pipeline: (i) Cold Start with curated visual chain-of-thought data to distill
basic reasoning skills and operation formatting; (ii) select samples whose
per-dimension and overall judgments are all correct, then conduct Rejection
sampling Fine-Tuning on these high-quality traces to further enhance reasoning;
and (iii) apply Group Relative Policy Optimization (GRPO) to strengthen
reasoning. Our approach delivers state-of-the-art accuracy among open-source
models on video preference benchmarks, especially for longer videos: a 7B
VR-Thinker achieves 80.5% on VideoGen Reward, 82.3% on GenAI-Bench, and 75.6%
on MJ-Bench-Video. These results validate the effectiveness and promise of
thinking-with-image multimodal reward modeling.