Juzgas Solo Una Vez: Modelado de Recompensas Multi-respuesta en una Única Pasada Hacia Adelante

Resumen

Presentamos un modelo de recompensa multimodal discriminativo que puntúa todas las respuestas candidatas en una sola pasada hacia adelante. Los modelos de recompensa discriminativos convencionales evalúan cada respuesta de forma independiente, requiriendo múltiples pasadas hacia adelante, una para cada respuesta potencial. Nuestro enfoque concatena múltiples respuestas con tokens separadores y aplica entropía cruzada sobre sus puntuaciones escalares, permitiendo un razonamiento comparativo directo y un aprendizaje eficiente de preferencias de N vías. El diseño de múltiples respuestas también produce una aceleración en tiempo de ejecución de hasta N veces y una reducción de FLOPs en comparación con la puntuación convencional de respuesta única. Para permitir la evaluación de recompensa de N vías más allá de los puntos de referencia existentes por pares, construimos dos nuevos benchmarks: (1) MR²Bench-Image contiene clasificaciones anotadas por humanos sobre respuestas de 8 modelos diversos; (2) MR²Bench-Video es un benchmark de recompensa a gran escala basado en video, derivado de 94K juicios humanos por pares crowdsourceados sobre respuestas a preguntas de video que abarcan 19 modelos, desnaturalizados mediante ensamblaje de grafos de preferencia. Ambos benchmarks proporcionan variantes de evaluación de 4 respuestas muestreadas de las clasificaciones completas. Construido sobre un backbone de lenguaje visual de 4B con ajuste fino LoRA y una cabeza de valor MLP ligera, nuestro modelo logra resultados state-of-the-art en seis benchmarks de recompensa multimodal, incluyendo MR²Bench-Image, MR²Bench-Video y otros cuatro benchmarks existentes. Nuestro modelo supera a los modelos de recompensa generativos y discriminativos más grandes existentes. Además, demostramos que nuestro modelo de recompensa, cuando se utiliza en aprendizaje por refuerzo con GRPO, produce modelos de política mejorados que mantienen el rendimiento en benchmarks multimodales estándar mientras mejoran sustancialmente la calidad de la generación abierta, superando por un amplio margen a una línea base de modelo de recompensa discriminativo (RM) de respuesta única tanto en estabilidad del entrenamiento como en calidad de generación abierta.

English

We present a discriminative multimodal reward model that scores all candidate responses in a single forward pass. Conventional discriminative reward models evaluate each response independently, requiring multiple forward passes, one for each potential response. Our approach concatenates multiple responses with separator tokens and applies cross-entropy over their scalar scores, enabling direct comparative reasoning and efficient N-way preference learning. The multi-response design also yields up to Ntimes wall-clock speedup and FLOPs reduction over conventional single-response scoring. To enable N-way reward evaluation beyond existing pairwise benchmarks, we construct two new benchmarks: (1) MR^2Bench-Image contains human-annotated rankings over responses from 8 diverse models; (2) MR^2Bench-Video is a large-scale video-based reward benchmark derived from 94K crowdsourced pairwise human judgments over video question-answering spanning 19 models, denoised via preference graph ensemble. Both benchmarks provide 4-response evaluation variants sampled from the full rankings. Built on a 4B vision-language backbone with LoRA fine-tuning and a lightweight MLP value head, our model achieves state-of-the-art results on six multimodal reward benchmarks, including MR^2Bench-Image, MR^2Bench-Video, and four other existing benchmarks. Our model outperforms existing larger generative and discriminative reward models. We further demonstrate that our reward model, when used in reinforcement learning with GRPO, produces improved policy models that maintain performance across standard multimodal benchmarks while substantially improving open-ended generation quality, outperforming a single-response discriminative reward model (RM) baseline by a large margin in both training stability and open-ended generation quality.

Juzgas Solo Una Vez: Modelado de Recompensas Multi-respuesta en una Única Pasada Hacia Adelante

You Only Judge Once: Multi-response Reward Modeling in a Single Forward Pass

Resumen

Support