RewardBench Personalizado: Avaliando Modelos de Recompensa com Personalização Alinhada ao Humano

Resumo

O alinhamento pluralista emergiu como uma fronteira crítica no desenvolvimento de Modelos de Linguagem de Grande Porte (LLMs), com os modelos de recompensa (RMs) servindo como um mecanismo central para capturar valores humanos diversos. Embora os *benchmarks* para a qualidade geral de respostas sejam prevalecentes, avaliar quão bem os modelos de recompensa consideram as preferências individuais dos usuários permanece um desafio em aberto. Para preencher esta lacuna, apresentamos o Personalized RewardBench, um novo *benchmark* projetado para avaliar rigorosamente a capacidade dos modelos de recompensa de modelar preferências personalizadas. Construímos pares de respostas escolhidas e rejeitadas com base na adesão estrita (ou violação) a rubricas específicas do usuário, garantindo que as distinções de preferência sejam exclusivamente adaptadas ao indivíduo. Em particular, avaliações humanas confirmam que o principal fator discriminativo entre os pares é estritamente a preferência pessoal, com ambas as respostas mantendo alta qualidade geral (por exemplo, correção, relevância e utilidade). Testes extensivos revelam que os modelos de recompensa estaduais da arte existentes lutam significativamente com a personalização, atingindo um pico de precisão de apenas 75,94%. Crucialmente, como um *benchmark* eficaz de modelo de recompensa deve prever o desempenho do modelo em tarefas subsequentes, conduzimos experimentos que demonstram que nosso *benchmark* exibe uma correlação significativamente maior com o desempenho subsequente, tanto na amostragem *Best-of-N* (BoN) quanto na Otimização de Políticas Proximais (PPO), em comparação com as *baselines* existentes. Essas descobertas estabelecem o Personalized RewardBench como um *proxy* robusto e preciso para avaliar o desempenho dos modelos de recompensa em aplicações subsequentes.

English

Pluralistic alignment has emerged as a critical frontier in the development of Large Language Models (LLMs), with reward models (RMs) serving as a central mechanism for capturing diverse human values. While benchmarks for general response quality are prevalent, evaluating how well reward models account for individual user preferences remains an open challenge. To bridge this gap, we introduce Personalized RewardBench, a novel benchmark designed to rigorously assess reward models' capacity to model personalized preferences. We construct chosen and rejected response pairs based on strict adherence to (or violation of) user-specific rubrics, ensuring that preference distinctions are uniquely tailored to the individual. In particular, human evaluations confirm that the primary discriminative factor between pairs is strictly personal preference, with both responses maintaining high general quality (e.g., correctness, relevance and helpfulness). Extensive testing reveals that existing state-of-the-art reward models struggle significantly with personalization, peaking at an accuracy of just 75.94%. Crucially, because an effective reward model benchmark should predict a reward model's performance on downstream tasks, we conduct experiments demonstrating that our benchmark exhibits a significantly higher correlation with downstream performance in both Best-of-N (BoN) sampling and Proximal Policy Optimization (PPO) compared to existing baselines. These findings establish Personalized RewardBench as a robust and accurate proxy for evaluating reward models' performance in downstream applications.

RewardBench Personalizado: Avaliando Modelos de Recompensa com Personalização Alinhada ao Humano

Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization

Resumo

Support