P-GenRM: Personalisiertes generatives Belohnungsmodell mit benutzerbasierter Skalierung zur Testzeit
P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling
February 12, 2026
papers.authors: Pinyi Zhang, Ting-En Lin, Yuchuan Wu, Jingyang Chen, Zongqi Wang, Hua Yang, Ze Xu, Fei Huang, Kai Zhang, Yongbin Li
cs.AI
papers.abstract
Die personalisierte Ausrichtung großer Sprachmodelle zielt darauf ab, Antworten an individuelle Benutzerpräferenzen anzupassen, typischerweise durch bestärkendes Lernen. Eine zentrale Herausforderung besteht darin, genaue, benutzerspezifische Belohnungssignale in offenen Szenarien zu erhalten. Bestehende personalisierte Belohnungsmodelle weisen zwei anhaltende Einschränkungen auf: (1) sie vereinfachen diverse, szenariospezifische Präferenzen übermäßig zu einem kleinen, festen Satz von Bewertungsprinzipien und (2) sie haben Schwierigkeiten mit der Generalisierung auf neue Benutzer mit begrenztem Feedback. Daher schlagen wir P-GenRM vor, das erste personalisierte generative Belohnungsmodell mit benutzerbasierter Skalierung zur Testzeit. P-GenRM transformiert Präferenzsignale in strukturierte Bewertungsketten, die adaptive Personas und Bewertungsraster über verschiedene Szenarien hinweg ableiten. Es gruppiert Benutzer weiterhin in Benutzerprototypen und führt einen dual-granularen Skalierungsmechanismus ein: Auf individueller Ebene skaliert und aggregiert es adaptiv das Bewertungsschema jedes Benutzers; auf Prototypenebene integriert es Präferenzen ähnlicher Benutzer. Dieser Ansatz mildert Rauschen in abgeleiteten Präferenzen und verbessert die Generalisierung auf unbekannte Benutzer durch prototypenbasierten Transfer. Empirische Ergebnisse zeigen, dass P-GenRM state-of-the-art Ergebnisse auf weit verbreiteten Benchmarks für personalisierte Belohnungsmodelle erzielt, mit einer durchschnittlichen Verbesserung von 2,31%, und starke Generalisierung auf einem Out-of-Distribution-Datensatz demonstriert. Bemerkenswerterweise bietet die benutzerbasierte Skalierung zur Testzeit eine zusätzliche Steigerung von 3%, was eine stärkere personalisierte Ausrichtung mit Testzeit-Skalierbarkeit demonstriert.
English
Personalized alignment of large language models seeks to adapt responses to individual user preferences, typically via reinforcement learning. A key challenge is obtaining accurate, user-specific reward signals in open-ended scenarios. Existing personalized reward models face two persistent limitations: (1) oversimplifying diverse, scenario-specific preferences into a small, fixed set of evaluation principles, and (2) struggling with generalization to new users with limited feedback. To this end, we propose P-GenRM, the first Personalized Generative Reward Model with test-time user-based scaling. P-GenRM transforms preference signals into structured evaluation chains that derive adaptive personas and scoring rubrics across various scenarios. It further clusters users into User Prototypes and introduces a dual-granularity scaling mechanism: at the individual level, it adaptively scales and aggregates each user's scoring scheme; at the prototype level, it incorporates preferences from similar users. This design mitigates noise in inferred preferences and enhances generalization to unseen users through prototype-based transfer. Empirical results show that P-GenRM achieves state-of-the-art results on widely-used personalized reward model benchmarks, with an average improvement of 2.31%, and demonstrates strong generalization on an out-of-distribution dataset. Notably, Test-time User-based scaling provides an additional 3% boost, demonstrating stronger personalized alignment with test-time scalability.