P-GenRM : Modèle de Récompense Génératif Personnalisé avec Mise à l'Échelle en Temps Réel Basée sur l'Utilisateur
P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling
February 12, 2026
papers.authors: Pinyi Zhang, Ting-En Lin, Yuchuan Wu, Jingyang Chen, Zongqi Wang, Hua Yang, Ze Xu, Fei Huang, Kai Zhang, Yongbin Li
cs.AI
papers.abstract
L'alignement personnalisé des grands modèles de langage vise à adapter les réponses aux préférences individuelles des utilisateurs, généralement par apprentissage par renforcement. Un défi majeur consiste à obtenir des signaux de récompense précis et spécifiques à l'utilisateur dans des scénarios ouverts. Les modèles de récompense personnalisés existants présentent deux limitations persistantes : (1) une simplification excessive des préférences diverses et spécifiques au scénario en un petit ensemble fixe de principes d'évaluation, et (2) des difficultés à généraliser à de nouveaux utilisateurs avec un feedback limité. Pour y remédier, nous proposons P-GenRM, le premier Modèle de Récompense Génératif Personnalisé avec mise à l'échelle en temps de test basée sur l'utilisateur. P-GenRM transforme les signaux de préférence en chaînes d'évaluation structurées qui dérivent des personas adaptatifs et des grilles d'évaluation pour divers scénarios. Il regroupe ensuite les utilisateurs en Prototypes d'Utilisateurs et introduit un mécanisme de mise à l'échelle à double granularité : au niveau individuel, il adapte et agrège dynamiquement le système de notation de chaque utilisateur ; au niveau du prototype, il intègre les préférences d'utilisateurs similaires. Cette conception atténue le bruit dans les préférences inférées et améliore la généralisation aux utilisateurs non vus via un transfert basé sur les prototypes. Les résultats empiriques montrent que P-GenRM obtient des résultats state-of-the-art sur les benchmarks largement utilisés pour les modèles de récompense personnalisés, avec une amélioration moyenne de 2,31 %, et démontre une forte généralisation sur un jeu de données hors distribution. Notamment, la mise à l'échelle en temps de test basée sur l'utilisateur apporte une amélioration supplémentaire de 3 %, démontrant un alignement personnalisé plus fort avec une scalabilité au moment du test.
English
Personalized alignment of large language models seeks to adapt responses to individual user preferences, typically via reinforcement learning. A key challenge is obtaining accurate, user-specific reward signals in open-ended scenarios. Existing personalized reward models face two persistent limitations: (1) oversimplifying diverse, scenario-specific preferences into a small, fixed set of evaluation principles, and (2) struggling with generalization to new users with limited feedback. To this end, we propose P-GenRM, the first Personalized Generative Reward Model with test-time user-based scaling. P-GenRM transforms preference signals into structured evaluation chains that derive adaptive personas and scoring rubrics across various scenarios. It further clusters users into User Prototypes and introduces a dual-granularity scaling mechanism: at the individual level, it adaptively scales and aggregates each user's scoring scheme; at the prototype level, it incorporates preferences from similar users. This design mitigates noise in inferred preferences and enhances generalization to unseen users through prototype-based transfer. Empirical results show that P-GenRM achieves state-of-the-art results on widely-used personalized reward model benchmarks, with an average improvement of 2.31%, and demonstrates strong generalization on an out-of-distribution dataset. Notably, Test-time User-based scaling provides an additional 3% boost, demonstrating stronger personalized alignment with test-time scalability.