Personalisiertes RewardBench: Bewertung von Belohnungsmodellen mit menschlich abgestimmter Personalisierung

Zusammenfassung

Pluralistische Ausrichtung hat sich als entscheidende Forschungsrichtung in der Entwicklung von Large Language Models (LLMs) etabliert, wobei Belohnungsmodelle (Reward Models, RMs) als zentraler Mechanismus zur Erfassung diverser menschlicher Werte dienen. Während Benchmarks für allgemeine Antwortqualität weit verbreitet sind, bleibt die Bewertung, wie gut Belohnungsmodelle individuelle Benutzerpräferenzen berücksichtigen, eine ungelöste Herausforderung. Um diese Lücke zu schließen, stellen wir Personalized RewardBench vor, einen neuartigen Benchmark, der darauf ausgelegt ist, die Fähigkeit von Belohnungsmodellen zur Modellierung personalisierter Präferenzen rigoros zu bewerten. Wir konstruieren Paare von erwählten und abgelehnten Antworten basierend auf der strikten Einhaltung (oder Verletzung) benutzerspezifischer Bewertungsraster, um sicherzustellen, dass die Präferenzunterschiede eindeutig auf den Einzelnen zugeschnitten sind. Insbesondere bestätigen humane Evaluationen, dass der primäre Unterscheidungsfaktor zwischen den Antwortpaaren strikt die persönliche Präferenz ist, wobei beide Antworten eine hohe allgemeine Qualität (z.B. Korrektheit, Relevanz und Hilfsbereitschaft) beibehalten. Umfangreiche Tests zeigen, dass bestehende state-of-the-art Belohnungsmodelle erheblich mit Personalisierung kämpfen und eine maximale Genauigkeit von nur 75,94% erreichen. Entscheidend ist, dass ein effektiver Benchmark für Belohnungsmodelle die Leistung eines Belohnungsmodells bei nachgelagerten Aufgaben vorhersagen können sollte. Wir führen Experimente durch, die demonstrieren, dass unser Benchmark eine signifikant höhere Korrelation mit der nachgelagerten Leistung sowohl bei Best-of-N (BoN) Sampling als auch bei Proximal Policy Optimization (PPO) aufweist, verglichen mit existierenden Baseline-Methoden. Diese Ergebnisse etablieren Personalized RewardBench als einen robusten und genauen Proxy für die Bewertung der Leistung von Belohnungsmodellen in nachgelagerten Anwendungen.

English

Pluralistic alignment has emerged as a critical frontier in the development of Large Language Models (LLMs), with reward models (RMs) serving as a central mechanism for capturing diverse human values. While benchmarks for general response quality are prevalent, evaluating how well reward models account for individual user preferences remains an open challenge. To bridge this gap, we introduce Personalized RewardBench, a novel benchmark designed to rigorously assess reward models' capacity to model personalized preferences. We construct chosen and rejected response pairs based on strict adherence to (or violation of) user-specific rubrics, ensuring that preference distinctions are uniquely tailored to the individual. In particular, human evaluations confirm that the primary discriminative factor between pairs is strictly personal preference, with both responses maintaining high general quality (e.g., correctness, relevance and helpfulness). Extensive testing reveals that existing state-of-the-art reward models struggle significantly with personalization, peaking at an accuracy of just 75.94%. Crucially, because an effective reward model benchmark should predict a reward model's performance on downstream tasks, we conduct experiments demonstrating that our benchmark exhibits a significantly higher correlation with downstream performance in both Best-of-N (BoN) sampling and Proximal Policy Optimization (PPO) compared to existing baselines. These findings establish Personalized RewardBench as a robust and accurate proxy for evaluating reward models' performance in downstream applications.

Personalisiertes RewardBench: Bewertung von Belohnungsmodellen mit menschlich abgestimmter Personalisierung

Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization

Zusammenfassung

Support