Gepersonaliseerde RewardBench: Evaluatie van Beloningsmodellen met Menselijk Uitgelijnde Personalisatie

Samenvatting

Pluralistische afstemming is naar voren gekomen als een cruciaal onderzoeksfront in de ontwikkeling van grootschalige taalmmodellen (LLM's), waarbij beloningsmodellen (RM's) fungeren als een centraal mechanisme om diverse menselijke waarden vast te leggen. Hoewel benchmarks voor algemene antwoordkwaliteit veelvoorkomend zijn, blijft het evalueren van hoe goed beloningsmodellen rekening houden met individuele gebruikersvoorkeuren een open uitdaging. Om deze kloof te overbruggen, introduceren wij Personalized RewardBench, een nieuwe benchmark die ontworpen is om het vermogen van beloningsmodellen om gepersonaliseerde voorkeuren te modelleren rigoureus te beoordelen. Wij construeren gekozen en verworpen antwoordparen op basis van strikte naleving (of overtreding) van gebruikersspecifieke rubrics, waardoor wordt gegarandeerd dat de voorkeursonderscheiden uniek zijn afgestemd op het individu. Met name menselijke evaluaties bevestigen dat de primaire onderscheidende factor tussen de paren strikt persoonlijke voorkeur is, waarbij beide antwoorden een hoge algemene kwaliteit behouden (bijvoorbeeld juistheid, relevantie en behulpzaamheid). Uitgebreide tests tonen aan dat bestaande state-of-the-art beloningsmodellen aanzienlijk moeite hebben met personalisatie, met een maximale nauwkeurigheid van slechts 75,94%. Cruciaal is dat, omdat een effectieve benchmark voor beloningsmodellen de prestaties van een beloningsmodel op downstreamtaken moet voorspellen, wij experimenten uitvoeren die aantonen dat onze benchmark een significant hogere correlatie vertoont met downstreamprestaties in zowel Best-of-N (BoN) sampling als Proximale Beleidsoptimalisatie (PPO) in vergelijking met bestaande basislijnen. Deze bevindingen vestigen Personalized RewardBench als een robuuste en nauwkeurige proxy voor het evalueren van de prestaties van beloningsmodellen in downstreamtoepassingen.

English

Pluralistic alignment has emerged as a critical frontier in the development of Large Language Models (LLMs), with reward models (RMs) serving as a central mechanism for capturing diverse human values. While benchmarks for general response quality are prevalent, evaluating how well reward models account for individual user preferences remains an open challenge. To bridge this gap, we introduce Personalized RewardBench, a novel benchmark designed to rigorously assess reward models' capacity to model personalized preferences. We construct chosen and rejected response pairs based on strict adherence to (or violation of) user-specific rubrics, ensuring that preference distinctions are uniquely tailored to the individual. In particular, human evaluations confirm that the primary discriminative factor between pairs is strictly personal preference, with both responses maintaining high general quality (e.g., correctness, relevance and helpfulness). Extensive testing reveals that existing state-of-the-art reward models struggle significantly with personalization, peaking at an accuracy of just 75.94%. Crucially, because an effective reward model benchmark should predict a reward model's performance on downstream tasks, we conduct experiments demonstrating that our benchmark exhibits a significantly higher correlation with downstream performance in both Best-of-N (BoN) sampling and Proximal Policy Optimization (PPO) compared to existing baselines. These findings establish Personalized RewardBench as a robust and accurate proxy for evaluating reward models' performance in downstream applications.

Gepersonaliseerde RewardBench: Evaluatie van Beloningsmodellen met Menselijk Uitgelijnde Personalisatie

Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization

Samenvatting

Support