Personalized RewardBench: Оценка моделей вознаграждения с персонализацией, согласованной с человеком

Аннотация

Плюралистическое согласование стало ключевым направлением в разработке больших языковых моделей (LLM), где модели вознаграждения (reward models, RM) выступают центральным механизмом для учета разнообразных человеческих ценностей. Хотя бенчмарки для оценки общего качества ответов широко распространены, задача оценки того, насколько хорошо модели вознаграждения учитывают индивидуальные предпочтения пользователей, остается нерешенной. Чтобы заполнить этот пробел, мы представляем Personalized RewardBench — новый бенчмарк, разработанный для строгой оценки способности моделей вознаграждения учитывать персонализированные предпочтения. Мы формируем пары выбранных и отвергнутых ответов на основе строгого соблюдения (или нарушения) пользовательских критериев, гарантируя, что различия в предпочтениях уникально адаптированы под конкретного человека. В частности, человеческие оценки подтверждают, что основной дискриминационный фактор между парами строго связан с личными предпочтениями, при этом оба ответа сохраняют высокое общее качество (например, корректность, релевантность и полезность). Масштабное тестирование показывает, что современные передовые модели вознаграждения испытывают значительные трудности с персонализацией, достигая пиковой точности всего в 75,94%. Что особенно важно, поскольку эффективный бенчмарк для моделей вознаграждения должен предсказывать их производительность на последующих задачах, мы проводим эксперименты, демонстрирующие, что наш бенчмарк имеет значительно более высокую корреляцию с производительностью на downstream-задачах как при Best-of-N (BoN) семплировании, так и при оптимизации проксимальной политики (PPO) по сравнению с существующими базовыми подходами. Эти результаты устанавливают Personalized RewardBench как надежный и точный прокси для оценки производительности моделей вознаграждения в прикладных сценариях.

English

Pluralistic alignment has emerged as a critical frontier in the development of Large Language Models (LLMs), with reward models (RMs) serving as a central mechanism for capturing diverse human values. While benchmarks for general response quality are prevalent, evaluating how well reward models account for individual user preferences remains an open challenge. To bridge this gap, we introduce Personalized RewardBench, a novel benchmark designed to rigorously assess reward models' capacity to model personalized preferences. We construct chosen and rejected response pairs based on strict adherence to (or violation of) user-specific rubrics, ensuring that preference distinctions are uniquely tailored to the individual. In particular, human evaluations confirm that the primary discriminative factor between pairs is strictly personal preference, with both responses maintaining high general quality (e.g., correctness, relevance and helpfulness). Extensive testing reveals that existing state-of-the-art reward models struggle significantly with personalization, peaking at an accuracy of just 75.94%. Crucially, because an effective reward model benchmark should predict a reward model's performance on downstream tasks, we conduct experiments demonstrating that our benchmark exhibits a significantly higher correlation with downstream performance in both Best-of-N (BoN) sampling and Proximal Policy Optimization (PPO) compared to existing baselines. These findings establish Personalized RewardBench as a robust and accurate proxy for evaluating reward models' performance in downstream applications.

Personalized RewardBench: Оценка моделей вознаграждения с персонализацией, согласованной с человеком

Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization

Аннотация

Support