P-GenRM: Modelo Generativo de Recompensa Personalizado com Escalonamento Baseado no Utilizador em Tempo de Teste

Resumo

O alinhamento personalizado de modelos de linguagem de grande escala visa adaptar as respostas às preferências individuais dos utilizadores, tipicamente através de aprendizagem por reforço. Um desafio fundamental é obter sinais de recompensa precisos e específicos do utilizador em cenários de resposta aberta. Os modelos de recompensa personalizados existentes enfrentam duas limitações persistentes: (1) simplificam excessivamente preferências diversificadas e específicas do cenário num conjunto pequeno e fixo de princípios de avaliação, e (2) lutam com a generalização para novos utilizadores com feedback limitado. Para tal, propomos o P-GenRM, o primeiro Modelo de Recompensa Generativo Personalizado com escalagem baseada no utilizador em tempo de teste. O P-GenRM transforma sinais de preferência em cadeias de avaliação estruturadas que derivam personas adaptativas e grelhas de pontuação em vários cenários. Agrupa ainda os utilizadores em Protótipos de Utilizador e introduz um mecanismo de escalagem de granularidade dupla: ao nível individual, escala e agrega adaptativamente o esquema de pontuação de cada utilizador; ao nível do protótipo, incorpora preferências de utilizadores similares. Este projeto mitiga o ruído nas preferências inferidas e melhora a generalização para utilizadores não vistos através da transferência baseada em protótipos. Resultados empíricos mostram que o P-GenRM alcança resultados state-of-the-art em benchmarks amplamente utilizados para modelos de recompensa personalizados, com uma melhoria média de 2,31%, e demonstra uma forte generalização num conjunto de dados fora da distribuição. Notavelmente, a Escalagem Baseada no Utilizador em Tempo de Teste proporciona um aumento adicional de 3%, demonstrando um alinhamento personalizado mais forte com escalabilidade em tempo de teste.

English

Personalized alignment of large language models seeks to adapt responses to individual user preferences, typically via reinforcement learning. A key challenge is obtaining accurate, user-specific reward signals in open-ended scenarios. Existing personalized reward models face two persistent limitations: (1) oversimplifying diverse, scenario-specific preferences into a small, fixed set of evaluation principles, and (2) struggling with generalization to new users with limited feedback. To this end, we propose P-GenRM, the first Personalized Generative Reward Model with test-time user-based scaling. P-GenRM transforms preference signals into structured evaluation chains that derive adaptive personas and scoring rubrics across various scenarios. It further clusters users into User Prototypes and introduces a dual-granularity scaling mechanism: at the individual level, it adaptively scales and aggregates each user's scoring scheme; at the prototype level, it incorporates preferences from similar users. This design mitigates noise in inferred preferences and enhances generalization to unseen users through prototype-based transfer. Empirical results show that P-GenRM achieves state-of-the-art results on widely-used personalized reward model benchmarks, with an average improvement of 2.31%, and demonstrates strong generalization on an out-of-distribution dataset. Notably, Test-time User-based scaling provides an additional 3% boost, demonstrating stronger personalized alignment with test-time scalability.

P-GenRM: Modelo Generativo de Recompensa Personalizado com Escalonamento Baseado no Utilizador em Tempo de Teste

P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling

Resumo

Support