Vous ne jugez qu'une fois : modélisation de la récompense multi-réponses en une seule passe avant
You Only Judge Once: Multi-response Reward Modeling in a Single Forward Pass
April 13, 2026
Auteurs: Yinuo Yang, Zixian Ma, Manasi Ganti, Jieyu Zhang, Ranjay Krishna
cs.AI
Résumé
Nous présentons un modèle de récompense multimodal discriminatif qui évalue toutes les réponses candidates en une seule passe avant. Les modèles de récompense discriminatifs conventionnels évaluent chaque réponse indépendamment, nécessitant de multiples passes avant, une pour chaque réponse potentielle. Notre approche concatène plusieurs réponses avec des tokens séparateurs et applique l'entropie croisée sur leurs scores scalaires, permettant un raisonnement comparatif direct et un apprentissage de préférences à N voies efficace. La conception multi-réponses permet également une accélération du temps d'exécution et une réduction des FLOPs jusqu'à N fois par rapport à l'évaluation conventionnelle mono-réponse. Pour permettre l'évaluation de récompenses à N voies au-delà des benchmarks existants par paires, nous avons construit deux nouveaux benchmarks : (1) MR^2Bench-Image contient des classements annotés par des humains sur des réponses provenant de 8 modèles divers ; (2) MR^2Bench-Video est un benchmark de récompense vidéo à grande échelle dérivé de 94 000 jugements humains par paires crowdsourcés sur des questions-réponses vidéo couvrant 19 modèles, débruités par un ensemble de graphes de préférence. Les deux benchmarks fournissent des variantes d'évaluation à 4 réponses échantillonnées à partir des classements complets. Construit sur une architecture vision-langage de 4B paramètres avec fine-tuning LoRA et une tête de valeur MLP légère, notre modèle obtient des résultats state-of-the-art sur six benchmarks de récompense multimodale, incluant MR^2Bench-Image, MR^2Bench-Video et quatre autres benchmarks existants. Notre modèle surpasse les modèles de récompense génératifs et discriminatifs existants plus larges. Nous démontrons en outre que notre modèle de récompense, utilisé en apprentissage par renforcement avec GRPO, produit des modèles de politique améliorés qui maintiennent les performances sur les benchmarks multimodaux standards tout en améliorant substantiellement la qualité de génération libre, surpassant largement un modèle de récompense discriminatif (RM) mono-réponse en stabilité d'entraînement et en qualité de génération libre.
English
We present a discriminative multimodal reward model that scores all candidate responses in a single forward pass. Conventional discriminative reward models evaluate each response independently, requiring multiple forward passes, one for each potential response. Our approach concatenates multiple responses with separator tokens and applies cross-entropy over their scalar scores, enabling direct comparative reasoning and efficient N-way preference learning. The multi-response design also yields up to Ntimes wall-clock speedup and FLOPs reduction over conventional single-response scoring. To enable N-way reward evaluation beyond existing pairwise benchmarks, we construct two new benchmarks: (1) MR^2Bench-Image contains human-annotated rankings over responses from 8 diverse models; (2) MR^2Bench-Video is a large-scale video-based reward benchmark derived from 94K crowdsourced pairwise human judgments over video question-answering spanning 19 models, denoised via preference graph ensemble. Both benchmarks provide 4-response evaluation variants sampled from the full rankings. Built on a 4B vision-language backbone with LoRA fine-tuning and a lightweight MLP value head, our model achieves state-of-the-art results on six multimodal reward benchmarks, including MR^2Bench-Image, MR^2Bench-Video, and four other existing benchmarks. Our model outperforms existing larger generative and discriminative reward models. We further demonstrate that our reward model, when used in reinforcement learning with GRPO, produces improved policy models that maintain performance across standard multimodal benchmarks while substantially improving open-ended generation quality, outperforming a single-response discriminative reward model (RM) baseline by a large margin in both training stability and open-ended generation quality.