ChatPaper.aiChatPaper

VR-Thinker: 画像推論を用いた思考によるビデオ報酬モデルの強化

VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning

October 12, 2025
著者: Qunzhong Wang, Jie Liu, Jiajun Liang, Yilei Jiang, Yuanxing Zhang, Jinyuan Chen, Yaozhi Zheng, Xintao Wang, Pengfei Wan, Xiangyu Yue, Jiaheng Liu
cs.AI

要旨

近年のマルチモーダル報酬モデル(RMs)の進展により、視覚生成モデルのポストトレーニングが大幅に改善された。しかし、現在のRMsには本質的な限界がある:(1)視覚入力は大きなコンテキスト予算を消費し、フレーム数を制限し、細かな詳細の喪失を引き起こす;(2)すべての視覚情報が初期プロンプトに詰め込まれるため、連鎖的思考推論中の幻覚や忘却が悪化する。これらの問題を克服するため、我々はVideoReward Thinker(VR-Thinker)を提案する。これは、RMに視覚的推論操作(例:フレーム選択)と設定可能な視覚メモリウィンドウを備えた「画像を用いた思考」フレームワークである。これにより、RMはコンテキストの制限内で視覚的証拠を積極的に取得・更新し、推論の忠実度と信頼性を向上させる。視覚的推論は、強化学習による微調整パイプラインを通じて活性化される:(i)基本的な推論スキルと操作フォーマットを蒸留するために、精選された視覚的連鎖的思考データを用いたコールドスタート;(ii)各次元および全体の判断がすべて正しいサンプルを選択し、これらの高品質なトレースに対してリジェクションサンプリング微調整を行い、推論をさらに強化;(iii)グループ相対ポリシー最適化(GRPO)を適用し、推論を強化する。我々のアプローチは、特に長い動画において、ビデオ選好ベンチマークでオープンソースモデルの中で最先端の精度を達成する:7BのVR-Thinkerは、VideoGen Rewardで80.5%、GenAI-Benchで82.3%、MJ-Bench-Videoで75.6%を達成した。これらの結果は、「画像を用いた思考」マルチモーダル報酬モデリングの有効性と可能性を検証するものである。
English
Recent advancements in multimodal reward models (RMs) have substantially improved post-training for visual generative models. However, current RMs face inherent limitations: (1) visual inputs consume large context budgets, forcing fewer frames and causing loss of fine-grained details; and (2) all visual information is packed into the initial prompt, exacerbating hallucination and forgetting during chain-of-thought reasoning. To overcome these issues, we introduce VideoReward Thinker (VR-Thinker), a thinking-with-image framework that equips the RM with visual reasoning operations (e.g., select frame) and a configurable visual memory window. This allows the RM to actively acquire and update visual evidence within context limits, improving reasoning fidelity and reliability. We activate visual reasoning via a reinforcement fine-tuning pipeline: (i) Cold Start with curated visual chain-of-thought data to distill basic reasoning skills and operation formatting; (ii) select samples whose per-dimension and overall judgments are all correct, then conduct Rejection sampling Fine-Tuning on these high-quality traces to further enhance reasoning; and (iii) apply Group Relative Policy Optimization (GRPO) to strengthen reasoning. Our approach delivers state-of-the-art accuracy among open-source models on video preference benchmarks, especially for longer videos: a 7B VR-Thinker achieves 80.5% on VideoGen Reward, 82.3% on GenAI-Bench, and 75.6% on MJ-Bench-Video. These results validate the effectiveness and promise of thinking-with-image multimodal reward modeling.
PDF172October 17, 2025