ChatPaper.aiChatPaper

Você Julga Apenas Uma Vez: Modelagem de Recompensa Multi-resposta em uma Única Passagem Direta

You Only Judge Once: Multi-response Reward Modeling in a Single Forward Pass

April 13, 2026
Autores: Yinuo Yang, Zixian Ma, Manasi Ganti, Jieyu Zhang, Ranjay Krishna
cs.AI

Resumo

Apresentamos um modelo discriminativo de recompensa multimodal que avalia todas as respostas candidatas em uma única passagem direta. Os modelos discriminativos de recompensa convencionais avaliam cada resposta de forma independente, exigindo múltiplas passagens diretas, uma para cada resposta potencial. Nossa abordagem concatena múltiplas respostas com tokens separadores e aplica entropia cruzada sobre suas pontuações escalares, permitindo raciocínio comparativo direto e aprendizado eficiente de preferências de N vias. O design de múltiplas respostas também proporciona uma aceleração de tempo de execução de até N vezes e uma redução de FLOPs em relação à pontuação convencional de resposta única. Para permitir a avaliação de recompensa de N vias além dos benchmarks pareados existentes, construímos dois novos benchmarks: (1) O MR²Bench-Image contém rankings anotados por humanos sobre respostas de 8 modelos diversos; (2) O MR²Bench-Video é um benchmark de recompensa em larga escala baseado em vídeo, derivado de 94 mil julgamentos pareados humanos coletados por crowdsourcing sobre questionamento e resposta com vídeo, abrangendo 19 modelos, com ruído reduzido via ensemble de grafos de preferência. Ambos os benchmarks fornecem variantes de avaliação com 4 respostas, amostradas a partir dos rankings completos. Construído sobre uma backbone de visão e linguagem de 4B com ajuste fino por LoRA e um cabeçalho de valor MLP leve, nosso modelo alcança resultados state-of-the-art em seis benchmarks de recompensa multimodal, incluindo MR²Bench-Image, MR²Bench-Video e outros quatro benchmarks existentes. Nosso modelo supera os modelos de recompensa generativos e discriminativos maiores existentes. Demonstramos ainda que nosso modelo de recompensa, quando usado em aprendizado por reforço com GRPO, produz modelos de política aprimorados que mantêm o desempenho em benchmarks multimodais padrão, enquanto melhoram substancialmente a qualidade da geração de texto livre, superando uma linha de base de modelo discriminativo de recompensa (RM) de resposta única por uma grande margem tanto na estabilidade do treinamento quanto na qualidade da geração de texto livre.
English
We present a discriminative multimodal reward model that scores all candidate responses in a single forward pass. Conventional discriminative reward models evaluate each response independently, requiring multiple forward passes, one for each potential response. Our approach concatenates multiple responses with separator tokens and applies cross-entropy over their scalar scores, enabling direct comparative reasoning and efficient N-way preference learning. The multi-response design also yields up to Ntimes wall-clock speedup and FLOPs reduction over conventional single-response scoring. To enable N-way reward evaluation beyond existing pairwise benchmarks, we construct two new benchmarks: (1) MR^2Bench-Image contains human-annotated rankings over responses from 8 diverse models; (2) MR^2Bench-Video is a large-scale video-based reward benchmark derived from 94K crowdsourced pairwise human judgments over video question-answering spanning 19 models, denoised via preference graph ensemble. Both benchmarks provide 4-response evaluation variants sampled from the full rankings. Built on a 4B vision-language backbone with LoRA fine-tuning and a lightweight MLP value head, our model achieves state-of-the-art results on six multimodal reward benchmarks, including MR^2Bench-Image, MR^2Bench-Video, and four other existing benchmarks. Our model outperforms existing larger generative and discriminative reward models. We further demonstrate that our reward model, when used in reinforcement learning with GRPO, produces improved policy models that maintain performance across standard multimodal benchmarks while substantially improving open-ended generation quality, outperforming a single-response discriminative reward model (RM) baseline by a large margin in both training stability and open-ended generation quality.
PDF92April 18, 2026