RewardBench Personnalisé : Évaluation des Modèles de Récompense avec une Personnalisation Alignée sur l'Humain

Résumé

L'alignement pluraliste est devenu une frontière cruciale dans le développement des modèles de langage de grande taille (LLM), les modèles de récompense (RM) servant de mécanisme central pour capturer la diversité des valeurs humaines. Bien que les benchmarks pour la qualité générale des réponses soient répandus, évaluer dans quelle mesure les modèles de récompense prennent en compte les préférences individuelles des utilisateurs reste un défi non résolu. Pour combler cette lacune, nous présentons Personalized RewardBench, un nouveau benchmark conçu pour évaluer rigoureusement la capacité des modèles de récompense à modéliser les préférences personnalisées. Nous construisons des paires de réponses choisies et rejetées basées sur le respect strict (ou la violation) de grilles d'évaluation spécifiques à l'utilisateur, garantissant que les distinctions de préférence sont uniquement adaptées à l'individu. En particulier, les évaluations humaines confirment que le facteur discriminatif principal entre les paires est strictement la préférence personnelle, les deux réponses conservant une haute qualité générale (ex. exactitude, pertinence et utilité). Des tests approfondis révèlent que les modèles de récompense actuels les plus performants éprouvent des difficultés significatives avec la personnalisation, atteignant un pic de précision à seulement 75,94%. Surtout, puisqu'un benchmark efficace de modèles de récompense devrait prédire leur performance sur des tâches en aval, nous menons des expériences démontrant que notre benchmark présente une corrélation significativement plus élevée avec la performance en aval, tant dans l'échantillonnage Best-of-N (BoN) que dans l'Optimisation de Politique Proximale (PPO), comparé aux bases de référence existantes. Ces résultats établissent Personalized RewardBench comme un proxy robuste et précis pour évaluer la performance des modèles de récompense dans les applications en aval.

English

Pluralistic alignment has emerged as a critical frontier in the development of Large Language Models (LLMs), with reward models (RMs) serving as a central mechanism for capturing diverse human values. While benchmarks for general response quality are prevalent, evaluating how well reward models account for individual user preferences remains an open challenge. To bridge this gap, we introduce Personalized RewardBench, a novel benchmark designed to rigorously assess reward models' capacity to model personalized preferences. We construct chosen and rejected response pairs based on strict adherence to (or violation of) user-specific rubrics, ensuring that preference distinctions are uniquely tailored to the individual. In particular, human evaluations confirm that the primary discriminative factor between pairs is strictly personal preference, with both responses maintaining high general quality (e.g., correctness, relevance and helpfulness). Extensive testing reveals that existing state-of-the-art reward models struggle significantly with personalization, peaking at an accuracy of just 75.94%. Crucially, because an effective reward model benchmark should predict a reward model's performance on downstream tasks, we conduct experiments demonstrating that our benchmark exhibits a significantly higher correlation with downstream performance in both Best-of-N (BoN) sampling and Proximal Policy Optimization (PPO) compared to existing baselines. These findings establish Personalized RewardBench as a robust and accurate proxy for evaluating reward models' performance in downstream applications.

RewardBench Personnalisé : Évaluation des Modèles de Récompense avec une Personnalisation Alignée sur l'Humain

Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization

Résumé

Support