一度の判断で十分:単一フォワードパスにおけるマルチレスポンス報酬モデリング
You Only Judge Once: Multi-response Reward Modeling in a Single Forward Pass
April 13, 2026
著者: Yinuo Yang, Zixian Ma, Manasi Ganti, Jieyu Zhang, Ranjay Krishna
cs.AI
要旨
我々は、候補となる応答を単一のフォワードパスで全て評価する識別型マルチモーダル報酬モデルを提案する。従来の識別型報酬モデルは各応答を独立に評価するため、潜在的な応答ごとに1回ずつ、複数回のフォワードパスを必要としていた。我々のアプローチでは、複数の応答を区切りトークンで連結し、それらのスカラー値にクロスエントロピーを適用することで、直接的な比較推論と効率的なN-way選好学習を実現する。このマルチ応答設計により、従来の単一応答評価と比較して、実時間で最大N倍の高速化とFLOPsの削減を達成する。既存のペアワイズベンチマークを超えるN-way報酬評価を可能にするため、2つの新しいベンチマークを構築した:(1) **MR^2Bench-Image** は、8つの多様なモデルからの応答に対する人手による注釈付き順位付けを含み、(2) **MR^2Bench-Video** は、19のモデルにわたる映像質問応答に対する94Kのクラウドソーシングによるペアワイズ人手判断から導出された大規模な映像ベースの報酬ベンチマークであり、選好グラフアンサンブルによってノイズ除去されている。両ベンチマークは、完全な順位付けからサンプリングされた4応答評価バリアントを提供する。LoRAファインチューニングと軽量なMLP価値ヘッドを備えた4Bパラメータの視覚言語バックボーン上に構築された我々のモデルは、MR^2Bench-Image、MR^2Bench-Video、および他の4つの既存ベンチマークを含む6つのマルチモーダル報酬ベンチマークにおいて、最先端の結果を達成する。我々のモデルは、既存のより大規模な生成的・識別的報酬モデルを上回る性能を示す。さらに、我々の報酬モデルをGRPOによる強化学習に用いることで、標準的なマルチモーダルベンチマークでの性能を維持しつつ、オープンエンド生成品質を大幅に改善する方策モデルが得られることを実証する。これは、単一応答の識別的報酬モデル(RM)ベースラインと比較して、学習の安定性とオープンエンド生成品質の両方で大きな差をつけて優位である。
English
We present a discriminative multimodal reward model that scores all candidate responses in a single forward pass. Conventional discriminative reward models evaluate each response independently, requiring multiple forward passes, one for each potential response. Our approach concatenates multiple responses with separator tokens and applies cross-entropy over their scalar scores, enabling direct comparative reasoning and efficient N-way preference learning. The multi-response design also yields up to Ntimes wall-clock speedup and FLOPs reduction over conventional single-response scoring. To enable N-way reward evaluation beyond existing pairwise benchmarks, we construct two new benchmarks: (1) MR^2Bench-Image contains human-annotated rankings over responses from 8 diverse models; (2) MR^2Bench-Video is a large-scale video-based reward benchmark derived from 94K crowdsourced pairwise human judgments over video question-answering spanning 19 models, denoised via preference graph ensemble. Both benchmarks provide 4-response evaluation variants sampled from the full rankings. Built on a 4B vision-language backbone with LoRA fine-tuning and a lightweight MLP value head, our model achieves state-of-the-art results on six multimodal reward benchmarks, including MR^2Bench-Image, MR^2Bench-Video, and four other existing benchmarks. Our model outperforms existing larger generative and discriminative reward models. We further demonstrate that our reward model, when used in reinforcement learning with GRPO, produces improved policy models that maintain performance across standard multimodal benchmarks while substantially improving open-ended generation quality, outperforming a single-response discriminative reward model (RM) baseline by a large margin in both training stability and open-ended generation quality.