RewardBench Personalizado: Evaluación de Modelos de Recompensa con Personalización Alineada con Humanos

Resumen

La alineación pluralista ha surgido como una frontera crítica en el desarrollo de los Modelos de Lenguaje a Gran Escala (LLM), donde los modelos de recompensa (RM) actúan como mecanismo central para capturar valores humanos diversos. Si bien los puntos de referencia para la calidad general de las respuestas son prevalentes, evaluar qué tan bien los modelos de recompensa representan las preferencias individuales de los usuarios sigue siendo un desafío pendiente. Para cerrar esta brecha, presentamos Personalized RewardBench, un nuevo punto de referencia diseñado para evaluar rigurosamente la capacidad de los modelos de recompensa para modelar preferencias personalizadas. Construimos pares de respuestas elegidas y rechazadas basándonos en la adherencia estricta (o violación) a rúbricas específicas del usuario, garantizando que las distinciones de preferencia sean exclusivamente adaptadas al individuo. En particular, evaluaciones humanas confirman que el principal factor discriminativo entre los pares es estrictamente la preferencia personal, manteniendo ambas respuestas una alta calidad general (por ejemplo, corrección, relevancia y utilidad). Pruebas exhaustivas revelan que los modelos de recompensa existentes de última generación tienen dificultades significativas con la personalización, alcanzando un máximo de precisión de solo el 75,94%. Crucialmente, dado que un punto de referencia efectivo para modelos de recompensa debería predecir su rendimiento en tareas posteriores, realizamos experimentos que demuestran que nuestro punto de referencia exhibe una correlación significativamente mayor con el rendimiento posterior, tanto en el muestreo Best-of-N (BoN) como en la Optimización de Políticas Proximales (PPO), en comparación con las líneas base existentes. Estos hallazgos establecen a Personalized RewardBench como un proxy robusto y preciso para evaluar el rendimiento de los modelos de recompensa en aplicaciones posteriores.

English

Pluralistic alignment has emerged as a critical frontier in the development of Large Language Models (LLMs), with reward models (RMs) serving as a central mechanism for capturing diverse human values. While benchmarks for general response quality are prevalent, evaluating how well reward models account for individual user preferences remains an open challenge. To bridge this gap, we introduce Personalized RewardBench, a novel benchmark designed to rigorously assess reward models' capacity to model personalized preferences. We construct chosen and rejected response pairs based on strict adherence to (or violation of) user-specific rubrics, ensuring that preference distinctions are uniquely tailored to the individual. In particular, human evaluations confirm that the primary discriminative factor between pairs is strictly personal preference, with both responses maintaining high general quality (e.g., correctness, relevance and helpfulness). Extensive testing reveals that existing state-of-the-art reward models struggle significantly with personalization, peaking at an accuracy of just 75.94%. Crucially, because an effective reward model benchmark should predict a reward model's performance on downstream tasks, we conduct experiments demonstrating that our benchmark exhibits a significantly higher correlation with downstream performance in both Best-of-N (BoN) sampling and Proximal Policy Optimization (PPO) compared to existing baselines. These findings establish Personalized RewardBench as a robust and accurate proxy for evaluating reward models' performance in downstream applications.

RewardBench Personalizado: Evaluación de Modelos de Recompensa con Personalización Alineada con Humanos

Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization

Resumen

Support