RewardBench Personalizzato: Valutazione dei Modelli di Ricompensa con Personalizzazione Allineata all'Umano

Abstract

L'allineamento pluralistico è emerso come una frontiera cruciale nello sviluppo dei Large Language Model (LLM), con i modelli di ricompensa (Reward Models, RM) che fungono da meccanismo centrale per catturare i diversi valori umani. Sebbene i benchmark per la qualità generale delle risposte siano diffusi, valutare quanto bene i modelli di ricompensa tengano conto delle preferenze individuali degli utenti rimane una sfida aperta. Per colmare questa lacuna, introduciamo Personalized RewardBench, un nuovo benchmark progettato per valutare rigorosamente la capacità dei modelli di ricompensa di modellare preferenze personalizzate. Costruiamo coppie di risposte scelte e rifiutate basate sul rigoroso rispetto (o violazione) di rubriche specifiche per l'utente, garantendo che le distinzioni di preferenza siano unicamente tailorizzate sull'individuo. In particolare, valutazioni umane confermano che il fattore discriminante primario tra le coppie è strettamente la preferenza personale, con entrambe le risposte che mantengono un'alta qualità generale (ad esempio, correttezza, rilevanza e utilità). Test estensivi rivelano che gli attuali modelli di ricompensa all'avanguardia hanno notevoli difficoltà con la personalizzazione, raggiungendo un picco di accuratezza di appena il 75,94%. Fondamentalmente, poiché un benchmark efficace per un modello di ricompensa dovrebbe prevedere le sue prestazioni nei task a valle, conduciamo esperimenti che dimostrano come il nostro benchmark mostri una correlazione significativamente più alta con le prestazioni a valle, sia nel campionamento Best-of-N (BoN) che nell'ottimizzazione Prossimale delle Politiche (Proximal Policy Optimization, PPO), rispetto ai baseline esistenti. Questi risultati stabiliscono Personalized RewardBench come un proxy robusto e accurato per valutare le prestazioni dei modelli di ricompensa nelle applicazioni a valle.

English

Pluralistic alignment has emerged as a critical frontier in the development of Large Language Models (LLMs), with reward models (RMs) serving as a central mechanism for capturing diverse human values. While benchmarks for general response quality are prevalent, evaluating how well reward models account for individual user preferences remains an open challenge. To bridge this gap, we introduce Personalized RewardBench, a novel benchmark designed to rigorously assess reward models' capacity to model personalized preferences. We construct chosen and rejected response pairs based on strict adherence to (or violation of) user-specific rubrics, ensuring that preference distinctions are uniquely tailored to the individual. In particular, human evaluations confirm that the primary discriminative factor between pairs is strictly personal preference, with both responses maintaining high general quality (e.g., correctness, relevance and helpfulness). Extensive testing reveals that existing state-of-the-art reward models struggle significantly with personalization, peaking at an accuracy of just 75.94%. Crucially, because an effective reward model benchmark should predict a reward model's performance on downstream tasks, we conduct experiments demonstrating that our benchmark exhibits a significantly higher correlation with downstream performance in both Best-of-N (BoN) sampling and Proximal Policy Optimization (PPO) compared to existing baselines. These findings establish Personalized RewardBench as a robust and accurate proxy for evaluating reward models' performance in downstream applications.

RewardBench Personalizzato: Valutazione dei Modelli di Ricompensa con Personalizzazione Allineata all'Umano

Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization

Abstract

Support