Giudichi Solo Una Volta: Modellazione della Ricompensa Multi-risposta in un Singolo Passaggio in Avanti

Abstract

Presentiamo un modello di ricompensa multimodale discriminativo che assegna un punteggio a tutte le risposte candidate in un unico passaggio in avanti. I convenzionali modelli di ricompensa discriminativi valutano ogni risposta in modo indipendente, richiedendo molteplici passaggi in avanti, uno per ogni potenziale risposta. Il nostro approccio concatena più risposte utilizzando token separatori e applica l'entropia incrociata sui loro punteggi scalari, consentendo un ragionamento comparativo diretto e un apprendimento efficiente delle preferenze a N vie. Il design multi-risposta produce anche un'accelerazione del tempo di esecuzione wall-clock fino a N volte e una riduzione dei FLOPs rispetto alla valutazione convenzionale a risposta singola. Per abilitare la valutazione della ricompensa a N vie oltre i benchmark esistenti a coppie, abbiamo costruito due nuovi benchmark: (1) MR²Bench-Image contiene classificazioni annotate da esseri umani su risposte provenienti da 8 modelli diversi; (2) MR²Bench-Video è un benchmark di ricompensa su larga scala basato su video, derivato da 94K giudizi umani a coppie raccolti tramite crowdworking su domande e risposte relative a video, che coinvolgono 19 modelli, denoisati tramite ensemble di grafi delle preferenze. Entrambi i benchmark forniscono varianti di valutazione a 4 risposte campionate dalle classificazioni complete. Costruito su un backbone visione-linguaggio da 4B parametri con fine-tuning LoRA e una testina di valore MLP leggera, il nostro modello raggiunge risultati allo stato dell'arte su sei benchmark di ricompensa multimodale, inclusi MR²Bench-Image, MR²Bench-Video e altri quattro benchmark esistenti. Il nostro modello supera i modelli di ricompensa generativi e discriminativi esistenti di dimensioni maggiori. Dimostriamo inoltre che il nostro modello di ricompensa, quando utilizzato nell'apprendimento per rinforzo con GRPO, produce modelli policy migliorati che mantengono le prestazioni su benchmark multimodali standard, migliorando sostanzialmente la qualità della generazione open-ended, superando di un ampio margine un modello di ricompensa discriminativo (RM) a risposta singola sia nella stabilità dell'addestramento che nella qualità della generazione open-ended.

English

We present a discriminative multimodal reward model that scores all candidate responses in a single forward pass. Conventional discriminative reward models evaluate each response independently, requiring multiple forward passes, one for each potential response. Our approach concatenates multiple responses with separator tokens and applies cross-entropy over their scalar scores, enabling direct comparative reasoning and efficient N-way preference learning. The multi-response design also yields up to Ntimes wall-clock speedup and FLOPs reduction over conventional single-response scoring. To enable N-way reward evaluation beyond existing pairwise benchmarks, we construct two new benchmarks: (1) MR^2Bench-Image contains human-annotated rankings over responses from 8 diverse models; (2) MR^2Bench-Video is a large-scale video-based reward benchmark derived from 94K crowdsourced pairwise human judgments over video question-answering spanning 19 models, denoised via preference graph ensemble. Both benchmarks provide 4-response evaluation variants sampled from the full rankings. Built on a 4B vision-language backbone with LoRA fine-tuning and a lightweight MLP value head, our model achieves state-of-the-art results on six multimodal reward benchmarks, including MR^2Bench-Image, MR^2Bench-Video, and four other existing benchmarks. Our model outperforms existing larger generative and discriminative reward models. We further demonstrate that our reward model, when used in reinforcement learning with GRPO, produces improved policy models that maintain performance across standard multimodal benchmarks while substantially improving open-ended generation quality, outperforming a single-response discriminative reward model (RM) baseline by a large margin in both training stability and open-ended generation quality.

Giudichi Solo Una Volta: Modellazione della Ricompensa Multi-risposta in un Singolo Passaggio in Avanti

You Only Judge Once: Multi-response Reward Modeling in a Single Forward Pass

Abstract

Support