Je Oordeelt Slechts Eén Keer: Multi-response Beloningsmodellering in een Enkele Voorwaartse Pass
You Only Judge Once: Multi-response Reward Modeling in a Single Forward Pass
April 13, 2026
Auteurs: Yinuo Yang, Zixian Ma, Manasi Ganti, Jieyu Zhang, Ranjay Krishna
cs.AI
Samenvatting
Wij presenteren een discriminerend multimodaal beloningsmodel dat alle kandidaatantwoorden in één enkele voorwaartse passering beoordeelt. Conventionele discriminerende beloningsmodellen evalueren elk antwoord onafhankelijk, wat meerdere voorwaartse passeringen vereist – één voor elk potentieel antwoord. Onze aanzet concateneert meerdere antwoorden met scheidingstokens en past kruis-entropie toe op hun scalaire scores, wat direct comparatief redeneren en efficiënte N-weg voorkeursleren mogelijk maakt. Het multi-antwoordontwerp levert ook een versnelling van de kloksnelheid tot N× en een vermindering van FLOPs op vergeleken met conventionele single-responsescores. Om N-weg beloningsevaluatie verder te brengen dan bestaande paarsgewijze benchmarks, construeren wij twee nieuwe benchmarks: (1) MR²Bench-Image bevat door mensen geannoteerde rangschikkingen van antwoorden van 8 diverse modellen; (2) MR²Bench-Video is een grootschalige videogebaseerde beloningsbenchmark afgeleid van 94K crowdsourced paarsgewijze menselijke beoordelingen van video-vraag-antwoordtasks over 19 modellen, ontdaan van ruis via ensemble van voorkeursgrafen. Beide benchmarks bieden varianten voor 4-antwoordevaluatie, bemonsterd uit de volledige rangschikkingen. Gebouwd op een 4B vision-language backbone met LoRA-fijnafstemming en een lichtgewicht MLP-waardekop, behaalt ons model state-of-the-art resultaten op zes multimodale beloningsbenchmarks, waaronder MR²Bench-Image, MR²Bench-Video en vier andere bestaande benchmarks. Ons model overtreft bestaande grotere generatieve en discriminerende beloningsmodellen. Wij tonen verder aan dat ons beloningsmodel, wanneer gebruikt in reinforcement learning met GRPO, verbeterde beleidsmodellen oplevert die prestaties handhaven op standaard multimodale benchmarks, terwijl de kwaliteit van open-einde-generatie aanzienlijk verbetert en een single-response discriminerend beloningsmodel (RM) baseline met grote marge overtreft in zowel trainingsstabiliteit als kwaliteit van open-einde-generatie.
English
We present a discriminative multimodal reward model that scores all candidate responses in a single forward pass. Conventional discriminative reward models evaluate each response independently, requiring multiple forward passes, one for each potential response. Our approach concatenates multiple responses with separator tokens and applies cross-entropy over their scalar scores, enabling direct comparative reasoning and efficient N-way preference learning. The multi-response design also yields up to Ntimes wall-clock speedup and FLOPs reduction over conventional single-response scoring. To enable N-way reward evaluation beyond existing pairwise benchmarks, we construct two new benchmarks: (1) MR^2Bench-Image contains human-annotated rankings over responses from 8 diverse models; (2) MR^2Bench-Video is a large-scale video-based reward benchmark derived from 94K crowdsourced pairwise human judgments over video question-answering spanning 19 models, denoised via preference graph ensemble. Both benchmarks provide 4-response evaluation variants sampled from the full rankings. Built on a 4B vision-language backbone with LoRA fine-tuning and a lightweight MLP value head, our model achieves state-of-the-art results on six multimodal reward benchmarks, including MR^2Bench-Image, MR^2Bench-Video, and four other existing benchmarks. Our model outperforms existing larger generative and discriminative reward models. We further demonstrate that our reward model, when used in reinforcement learning with GRPO, produces improved policy models that maintain performance across standard multimodal benchmarks while substantially improving open-ended generation quality, outperforming a single-response discriminative reward model (RM) baseline by a large margin in both training stability and open-ended generation quality.