Sie urteilen nur einmal: Mehrfachantwort-Belohnungsmodellierung in einem einzigen Vorwärtsdurchlauf

Zusammenfassung

Wir präsentieren ein diskriminatives multimodales Belohnungsmodell, das alle Kandidatenantworten in einem einzigen Vorwärtsdurchlauf bewertet. Herkömmliche diskriminative Belohnungsmodelle bewerten jede Antwort unabhängig, was mehrere Vorwärtsdurchläufe – einen für jede potenzielle Antwort – erfordert. Unser Ansatz verkettet mehrere Antworten mit Separator-Tokens und wendet die Kreuzentropie auf deren skalare Bewertungen an, was direkte vergleichende Schlussfolgerungen und effizientes N-fach-Präferenzlernen ermöglicht. Das Multi-Antwort-Design führt zudem zu einer bis zu N-fachen Beschleunigung der Echtzeit und Reduzierung der FLOPs im Vergleich zur konventionellen Einzelantwort-Bewertung. Um N-fach-Belohnungsbewertung über existierende paarweise Benchmarks hinaus zu ermöglichen, entwickeln wir zwei neue Benchmarks: (1) MR^2Bench-Image enthält menschlich annotierte Rangfolgen von Antworten aus 8 verschiedenen Modellen; (2) MR^2Bench-Video ist ein groß angelegter videobasierter Belohnungsbenchmark, der aus 94.000 crowdgesourcten paarweisen menschlichen Bewertungen zu Video-Frage-Antwort-Systemen über 19 Modelle abgeleitet und durch Preference-Graph-Ensemble entrauscht wurde. Beide Benchmarks bieten 4-Antwort-Evaluationsvarianten, die aus den vollständigen Rangfolgen stichprobenartig entnommen wurden. Aufbauend auf einem 4B-Vision-Language-Backbone mit LoRA-Feinabstimmung und einem leichten MLP-Wertkopf erzielt unser Modell state-of-the-art Ergebnisse auf sechs multimodalen Belohnungsbenchmarks, einschließlich MR^2Bench-Image, MR^2Bench-Video und vier weiteren existierenden Benchmarks. Unser Modell übertrifft existierende größere generative und diskriminative Belohnungsmodelle. Wir zeigen weiterhin, dass unser Belohnungsmodell, wenn es in Reinforcement Learning mit GRPO eingesetzt wird, verbesserte Policymodelle hervorbringt, die die Leistung auf standardmäßigen multimodalen Benchmarks beibehalten und gleichzeitig die Qualität der freien Erzeugung erheblich verbessern, wobei es ein diskriminatives Belohnungsmodell (RM) mit Einzelantwort-Baseline sowohl in Trainingsstabilität als auch in der Qualität der freien Erzeugung deutlich übertrifft.

English

We present a discriminative multimodal reward model that scores all candidate responses in a single forward pass. Conventional discriminative reward models evaluate each response independently, requiring multiple forward passes, one for each potential response. Our approach concatenates multiple responses with separator tokens and applies cross-entropy over their scalar scores, enabling direct comparative reasoning and efficient N-way preference learning. The multi-response design also yields up to Ntimes wall-clock speedup and FLOPs reduction over conventional single-response scoring. To enable N-way reward evaluation beyond existing pairwise benchmarks, we construct two new benchmarks: (1) MR^2Bench-Image contains human-annotated rankings over responses from 8 diverse models; (2) MR^2Bench-Video is a large-scale video-based reward benchmark derived from 94K crowdsourced pairwise human judgments over video question-answering spanning 19 models, denoised via preference graph ensemble. Both benchmarks provide 4-response evaluation variants sampled from the full rankings. Built on a 4B vision-language backbone with LoRA fine-tuning and a lightweight MLP value head, our model achieves state-of-the-art results on six multimodal reward benchmarks, including MR^2Bench-Image, MR^2Bench-Video, and four other existing benchmarks. Our model outperforms existing larger generative and discriminative reward models. We further demonstrate that our reward model, when used in reinforcement learning with GRPO, produces improved policy models that maintain performance across standard multimodal benchmarks while substantially improving open-ended generation quality, outperforming a single-response discriminative reward model (RM) baseline by a large margin in both training stability and open-ended generation quality.

Sie urteilen nur einmal: Mehrfachantwort-Belohnungsmodellierung in einem einzigen Vorwärtsdurchlauf

You Only Judge Once: Multi-response Reward Modeling in a Single Forward Pass

Zusammenfassung

Support