P-GenRM: Gepersonaliseerd Generatief Beloningsmodel met Testtijd Schaling op Gebruikersbasis

Samenvatting

Gepersonaliseerde afstemming van grote taalmmodellen beoogt antwoorden aan te passen aan individuele gebruikersvoorkeuren, typisch via reinforcement learning. Een belangrijke uitdaging is het verkrijgen van accurate, gebruikersspecifieke beloningssignalen in open-ended scenario's. Bestaande gepersonaliseerde beloningsmodellen kampen met twee hardnekkige beperkingen: (1) het oversimplificeren van diverse, scenariospecifieke voorkeuren tot een kleine, vaste set evaluatieprincipes, en (2) moeite met generalisatie naar nieuwe gebruikers met beperkte feedback. Daarom stellen wij P-GenRM voor, het eerste Gepersonaliseerde Generatieve Beloningsmodel met test-time schaling op basis van gebruikers. P-GenRM transformeert voorkeursignalen in gestructureerde evaluatieketens die adaptieve persona's en beoordelingsrubrieken afleiden across verschillende scenario's. Het clustert gebruikers verder in Gebruikersprototypes en introduceert een dual-granulariteit schalingsmechanisme: op individueel niveau schaalt en aggregeert het adaptief het scoringsschema van elke gebruiker; op prototype-niveau incorporeert het voorkeuren van vergelijkbare gebruikers. Dit ontwerp vermindert ruis in afgeleide voorkeuren en verbetert de generalisatie naar ongeziene gebruikers via prototype-gebaseerde transfer. Empirische resultaten tonen aan dat P-GenRM state-of-the-art resultaten behaalt op veelgebruikte benchmarks voor gepersonaliseerde beloningsmodellen, met een gemiddelde verbetering van 2.31%, en sterke generalisatie demonstreert op een out-of-distribution dataset. Opmerkelijk is dat Test-time Gebruikersgebaseerde Schaling een extra boost van 3% geeft, wat een sterkere gepersonaliseerde afstemming aantoont met test-time schaalbaarheid.

English

Personalized alignment of large language models seeks to adapt responses to individual user preferences, typically via reinforcement learning. A key challenge is obtaining accurate, user-specific reward signals in open-ended scenarios. Existing personalized reward models face two persistent limitations: (1) oversimplifying diverse, scenario-specific preferences into a small, fixed set of evaluation principles, and (2) struggling with generalization to new users with limited feedback. To this end, we propose P-GenRM, the first Personalized Generative Reward Model with test-time user-based scaling. P-GenRM transforms preference signals into structured evaluation chains that derive adaptive personas and scoring rubrics across various scenarios. It further clusters users into User Prototypes and introduces a dual-granularity scaling mechanism: at the individual level, it adaptively scales and aggregates each user's scoring scheme; at the prototype level, it incorporates preferences from similar users. This design mitigates noise in inferred preferences and enhances generalization to unseen users through prototype-based transfer. Empirical results show that P-GenRM achieves state-of-the-art results on widely-used personalized reward model benchmarks, with an average improvement of 2.31%, and demonstrates strong generalization on an out-of-distribution dataset. Notably, Test-time User-based scaling provides an additional 3% boost, demonstrating stronger personalized alignment with test-time scalability.

P-GenRM: Gepersonaliseerd Generatief Beloningsmodel met Testtijd Schaling op Gebruikersbasis

P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling

Samenvatting

Support