P-GenRM: Modello di Ricompensa Generativo Personalizzato con Scalabilità Basata sull'Utente in Fase di Test

Abstract

L'allineamento personalizzato dei grandi modelli linguistici mira ad adattare le risposte alle preferenze individuali degli utenti, tipicamente tramite apprendimento per rinforzo. Una sfida chiave è ottenere segnali di ricompensa accurati e specifici per l'utente in scenari aperti. Gli attuali modelli di ricompensa personalizzati presentano due limiti persistenti: (1) semplificano eccessivamente preferenze diversificate e specifiche dello scenario in un insieme piccolo e fisso di principi di valutazione, e (2) faticano a generalizzare per nuovi utenti con feedback limitato. A tal fine, proponiamo P-GenRM, il primo Modello di Ricompensa Generativo Personalizzato con scalabilità basata sull'utente al momento del test. P-GenRM trasforma i segnali di preferenza in catene di valutazione strutturate che derivano personaggi adattivi e griglie di valutazione attraverso vari scenari. Inoltre, raggruppa gli utenti in Prototipi di Utente e introduce un meccanismo di scalabilità a doppia granularità: a livello individuale, scala e aggrega in modo adattivo lo schema di punteggio di ciascun utente; a livello di prototipo, incorpora le preferenze di utenti simili. Questo design mitiga il rumore nelle preferenze inferite e migliora la generalizzazione per utenti non visti tramite trasferimento basato su prototipi. I risultati empirici mostrano che P-GenRM raggiunge risultati all'avanguardia sui benchmark dei modelli di ricompensa personalizzati più utilizzati, con un miglioramento medio del 2.31%, e dimostra una forte generalizzazione su un dataset fuori distribuzione. Significativamente, la scalabilità basata sull'utente al momento del test fornisce un ulteriore miglioramento del 3%, dimostrando un allineamento personalizzato più forte con scalabilità durante il test.

English

Personalized alignment of large language models seeks to adapt responses to individual user preferences, typically via reinforcement learning. A key challenge is obtaining accurate, user-specific reward signals in open-ended scenarios. Existing personalized reward models face two persistent limitations: (1) oversimplifying diverse, scenario-specific preferences into a small, fixed set of evaluation principles, and (2) struggling with generalization to new users with limited feedback. To this end, we propose P-GenRM, the first Personalized Generative Reward Model with test-time user-based scaling. P-GenRM transforms preference signals into structured evaluation chains that derive adaptive personas and scoring rubrics across various scenarios. It further clusters users into User Prototypes and introduces a dual-granularity scaling mechanism: at the individual level, it adaptively scales and aggregates each user's scoring scheme; at the prototype level, it incorporates preferences from similar users. This design mitigates noise in inferred preferences and enhances generalization to unseen users through prototype-based transfer. Empirical results show that P-GenRM achieves state-of-the-art results on widely-used personalized reward model benchmarks, with an average improvement of 2.31%, and demonstrates strong generalization on an out-of-distribution dataset. Notably, Test-time User-based scaling provides an additional 3% boost, demonstrating stronger personalized alignment with test-time scalability.

P-GenRM: Modello di Ricompensa Generativo Personalizzato con Scalabilità Basata sull'Utente in Fase di Test

P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling

Abstract

Support