ChatPaper.aiChatPaper

Вы судите лишь раз: моделирование вознаграждений для множества ответов за один прямой проход

You Only Judge Once: Multi-response Reward Modeling in a Single Forward Pass

April 13, 2026
Авторы: Yinuo Yang, Zixian Ma, Manasi Ganti, Jieyu Zhang, Ranjay Krishna
cs.AI

Аннотация

Мы представляем дискриминативную мультимодальную модель вознаграждения, которая оценивает все кандидатные ответы за один прямой проход. Традиционные дискриминативные модели вознаграждения оценивают каждый ответ независимо, требуя множественных прямых проходов — по одному для каждого потенциального ответа. Наш подход объединяет несколько ответов с помощью токенов-разделителей и применяет перекрёстную энтропию к их скалярным оценкам, что позволяет проводить прямое сравнительное рассуждение и эффективное N-арное обучение с предпочтениями. Конструкция с множественными ответами также обеспечивает ускорение реального времени до N раз и сокращение FLOPs по сравнению с традиционным оцениванием одиночных ответов. Чтобы обеспечить N-арную оценку вознаграждения за пределами существующих парных бенчмарков, мы создали два новых бенчмарка: (1) MR^2Bench-Image содержит размеченные человеком ранжирования ответов от 8 разнообразных моделей; (2) MR^2Bench-Video — это крупномасштабный бенчмарк вознаграждения на основе видео, созданный из 94K парных человеческих оценок по ответам на вопросы о видео, охватывающих 19 моделей, очищенных с помощью ансамбля графов предпочтений. Оба бенчмарка предоставляют варианты оценки по 4 ответам, выбранным из полных ранжирований. Построенная на основе vision-language модели объёмом 4B с тонкой настройкой LoRA и облегчённой MLP-головой для прогнозирования значения, наша модель достигает state-of-the-art результатов на шести мультимодальных бенчмарках вознаграждения, включая MR^2Bench-Image, MR^2Bench-Video и четыре других существующих бенчмарка. Наша модель превосходит существующие более крупные генеративные и дискриминативные модели вознаграждения. Мы также демонстрируем, что наша модель вознаграждения, используемая в обучении с подкреплением с GRPO, порождает улучшенные моделей политик, которые сохраняют производительность на стандартных мультимодальных бенчмарках, одновременно существенно улучшая качество генерации в открытой постановке, значительно превосходя базовый уровень дискриминативной модели вознаграждения (RM) с одиночным ответом как по стабильности обучения, так и по качеству генерации.
English
We present a discriminative multimodal reward model that scores all candidate responses in a single forward pass. Conventional discriminative reward models evaluate each response independently, requiring multiple forward passes, one for each potential response. Our approach concatenates multiple responses with separator tokens and applies cross-entropy over their scalar scores, enabling direct comparative reasoning and efficient N-way preference learning. The multi-response design also yields up to Ntimes wall-clock speedup and FLOPs reduction over conventional single-response scoring. To enable N-way reward evaluation beyond existing pairwise benchmarks, we construct two new benchmarks: (1) MR^2Bench-Image contains human-annotated rankings over responses from 8 diverse models; (2) MR^2Bench-Video is a large-scale video-based reward benchmark derived from 94K crowdsourced pairwise human judgments over video question-answering spanning 19 models, denoised via preference graph ensemble. Both benchmarks provide 4-response evaluation variants sampled from the full rankings. Built on a 4B vision-language backbone with LoRA fine-tuning and a lightweight MLP value head, our model achieves state-of-the-art results on six multimodal reward benchmarks, including MR^2Bench-Image, MR^2Bench-Video, and four other existing benchmarks. Our model outperforms existing larger generative and discriminative reward models. We further demonstrate that our reward model, when used in reinforcement learning with GRPO, produces improved policy models that maintain performance across standard multimodal benchmarks while substantially improving open-ended generation quality, outperforming a single-response discriminative reward model (RM) baseline by a large margin in both training stability and open-ended generation quality.
PDF61April 16, 2026