한 번만 판단한다: 단일 순방향 전달로 다중 응답 보상 모델링 구현하기

초록

우리는 모든 후보 응답을 단일 순전파로 점수화하는 판별형 멀티모달 보상 모델을 제시한다. 기존의 판별형 보상 모델은 각 응답을 독립적으로 평가하여 잠재적 응답마다 한 번씩 여러 번의 순전파가 필요했다. 우리의 접근 방식은 여러 응답을 구분 토큰으로 연결하고 스칼라 점수에 대해 교차 엔트로피를 적용하여 직접적인 비교 추론과 효율적인 N-방식 선호 학습을 가능하게 한다. 이 다중 응답 설계는 기존의 단일 응답 점수화 방식 대비 최대 N배의 실제 속도 향상과 FLOPs 감소를 제공한다. 기존의 쌍별(pairwise) 벤치마크를 넘어 N-방식 보상 평가를 가능하게 하기 위해 우리는 두 가지 새로운 벤치마크를 구축했다: (1) MR^2Bench-Image는 8가지 다양한 모델의 응답에 대한 인간 주석 순위를 포함한다; (2) MR^2Bench-Video는 19개 모델의 비디오 질의응답에 대한 94K 크라우드소싱 쌍별 인간 판단에서 도출된 대규모 비디오 기반 보상 벤치마크로, 선호 그래프 앙상블을 통해 노이즈를 제거했다. 두 벤치마크 모두 전체 순위에서 샘플링된 4-응답 평가 변형을 제공한다. LoRA 미세 조정과 경량 MLP 값 헤드가 적용된 4B 규모의 비전-언어 백본을 기반으로 구축된 우리 모델은 MR^2Bench-Image, MR^2Bench-Video 및 기존 4개 벤치마크를 포함한 6개의 멀티모달 보상 벤치마크에서 최첨단 성과를 달성했다. 우리 모델은 기존의 더 큰 생성형 및 판별형 보상 모델들을 능가한다. 우리는 추가로 우리의 보상 모델이 GRPO와 함께 강화학습에 사용될 때, 표준 멀티모달 벤치마크 전반의 성능을 유지하면서 자유형 생성 품질을 향상시키는 정책 모델을 생성함을 입증했다. 이는 단일 응답 판별형 보상 모델(RM) 기준선보다 훈련 안정성과 자유형 생성 품질 모두에서 큰 차이로 우수한 성능을 보인다.

English

We present a discriminative multimodal reward model that scores all candidate responses in a single forward pass. Conventional discriminative reward models evaluate each response independently, requiring multiple forward passes, one for each potential response. Our approach concatenates multiple responses with separator tokens and applies cross-entropy over their scalar scores, enabling direct comparative reasoning and efficient N-way preference learning. The multi-response design also yields up to Ntimes wall-clock speedup and FLOPs reduction over conventional single-response scoring. To enable N-way reward evaluation beyond existing pairwise benchmarks, we construct two new benchmarks: (1) MR^2Bench-Image contains human-annotated rankings over responses from 8 diverse models; (2) MR^2Bench-Video is a large-scale video-based reward benchmark derived from 94K crowdsourced pairwise human judgments over video question-answering spanning 19 models, denoised via preference graph ensemble. Both benchmarks provide 4-response evaluation variants sampled from the full rankings. Built on a 4B vision-language backbone with LoRA fine-tuning and a lightweight MLP value head, our model achieves state-of-the-art results on six multimodal reward benchmarks, including MR^2Bench-Image, MR^2Bench-Video, and four other existing benchmarks. Our model outperforms existing larger generative and discriminative reward models. We further demonstrate that our reward model, when used in reinforcement learning with GRPO, produces improved policy models that maintain performance across standard multimodal benchmarks while substantially improving open-ended generation quality, outperforming a single-response discriminative reward model (RM) baseline by a large margin in both training stability and open-ended generation quality.

한 번만 판단한다: 단일 순방향 전달로 다중 응답 보상 모델링 구현하기

You Only Judge Once: Multi-response Reward Modeling in a Single Forward Pass

초록

Support