ChatPaper.aiChatPaper

P-GenRM: Персонализированная генеративная модель вознаграждения с масштабированием на основе пользователя во время тестирования

P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling

February 12, 2026
Авторы: Pinyi Zhang, Ting-En Lin, Yuchuan Wu, Jingyang Chen, Zongqi Wang, Hua Yang, Ze Xu, Fei Huang, Kai Zhang, Yongbin Li
cs.AI

Аннотация

Персонализированное согласование больших языковых моделей направлено на адаптацию ответов под индивидуальные предпочтения пользователей, как правило, с помощью обучения с подкреплением. Ключевой проблемой является получение точных, специфичных для пользователя сигналов вознаграждения в открытых сценариях. Существующие персонализированные модели вознаграждения сталкиваются с двумя устойчивыми ограничениями: (1) они чрезмерно упрощают разнообразные, зависящие от сценария предпочтения до небольшого фиксированного набора оценочных принципов и (2) испытывают трудности с обобщением на новых пользователей при ограниченной обратной связи. Для решения этих проблем мы предлагаем P-GenRM — первую Персонализированную Генеративную Модель Вознаграждения с масштабированием на основе пользователя во время тестирования. P-GenRM преобразует сигналы предпочтений в структурированные оценочные цепочки, которые выводят адаптивные персоналии и критерии оценивания для различных сценариев. Кроме того, модель кластеризует пользователей в Прототипы Пользователей и вводит механизм масштабирования с двойной гранулярностью: на индивидуальном уровне она адаптивно масштабирует и агрегирует схему оценивания каждого пользователя; на уровне прототипа она учитывает предпочтения схожих пользователей. Такая конструкция снижает шум в выводимых предпочтениях и улучшает обобщение на новых пользователей за счет трансфера на основе прототипов. Экспериментальные результаты показывают, что P-GenRM достигает передовых результатов на широко используемых бенчмарках для персонализированных моделей вознаграждения со средним улучшением на 2.31% и демонстрирует высокую способность к обобщению на наборе данных с иным распределением. Примечательно, что масштабирование на основе пользователя во время тестирования дает дополнительное улучшение на 3%, что свидетельствует о более сильном персонализированном согласовании с возможностью масштабирования в режиме тестирования.
English
Personalized alignment of large language models seeks to adapt responses to individual user preferences, typically via reinforcement learning. A key challenge is obtaining accurate, user-specific reward signals in open-ended scenarios. Existing personalized reward models face two persistent limitations: (1) oversimplifying diverse, scenario-specific preferences into a small, fixed set of evaluation principles, and (2) struggling with generalization to new users with limited feedback. To this end, we propose P-GenRM, the first Personalized Generative Reward Model with test-time user-based scaling. P-GenRM transforms preference signals into structured evaluation chains that derive adaptive personas and scoring rubrics across various scenarios. It further clusters users into User Prototypes and introduces a dual-granularity scaling mechanism: at the individual level, it adaptively scales and aggregates each user's scoring scheme; at the prototype level, it incorporates preferences from similar users. This design mitigates noise in inferred preferences and enhances generalization to unseen users through prototype-based transfer. Empirical results show that P-GenRM achieves state-of-the-art results on widely-used personalized reward model benchmarks, with an average improvement of 2.31%, and demonstrates strong generalization on an out-of-distribution dataset. Notably, Test-time User-based scaling provides an additional 3% boost, demonstrating stronger personalized alignment with test-time scalability.
PDF31February 14, 2026