P-GenRM: 테스트 타임 사용자 기반 스케일링을 적용한 개인화 생성 보상 모델
P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling
February 12, 2026
저자: Pinyi Zhang, Ting-En Lin, Yuchuan Wu, Jingyang Chen, Zongqi Wang, Hua Yang, Ze Xu, Fei Huang, Kai Zhang, Yongbin Li
cs.AI
초록
대규모 언어 모델의 개인화 정렬은 일반적으로 강화 학습을 통해 사용자 개별 선호도에 맞춰 응답을 조정하는 것을 목표로 합니다. 핵심 과제는 개방형 시나리오에서 정확한 사용자별 보상 신호를 획득하는 것입니다. 기존 개인화 보상 모델은 두 가지 지속적인 한계에 직면해 있습니다: (1) 다양하고 시나리오별 선호도를 소수의 고정된 평가 원칙 집합으로 지나치게 단순화하며, (2) 제한된 피드백을 가진 새로운 사용자에게의 일반화에 어려움을 겪습니다. 이를 위해 우리는 테스트 시 사용자 기반 스케일링을 적용한 최초의 개인화 생성 보상 모델인 P-GenRM을 제안합니다. P-GenRM은 선호도 신호를 다양한 시나리오에 걸쳐 적응형 페르소나와 채점 기준을 도출하는 구조화된 평가 체인으로 변환합니다. 또한 사용자를 사용자 프로토타입으로 군집화하고 이중 세분화 스케일링 메커니즘을 도입합니다: 개인 수준에서는 각 사용자의 채점 체계를 적응적으로 스케일링 및 집계하고, 프로토타입 수준에서는 유사 사용자들의 선호도를 통합합니다. 이 설계는 추론된 선호도의 노이즈를 완화하고 프로토타입 기반 전이를 통해 보이지 않는 사용자에 대한 일반화를 향상시킵니다. 실험 결과, P-GenRM은 널리 사용되는 개인화 보상 모델 벤치마크에서 평균 2.31% 향상된 최첨단 성능을 달성했으며, 분포 외 데이터셋에서도 강력한 일반화 성능을 보였습니다. 특히 테스트 시 사용자 기반 스케일링은 추가로 3%의 성능 향상을 제공하여 테스트 시 확장성과 더욱 강력한 개인화 정렬을 입증했습니다.
English
Personalized alignment of large language models seeks to adapt responses to individual user preferences, typically via reinforcement learning. A key challenge is obtaining accurate, user-specific reward signals in open-ended scenarios. Existing personalized reward models face two persistent limitations: (1) oversimplifying diverse, scenario-specific preferences into a small, fixed set of evaluation principles, and (2) struggling with generalization to new users with limited feedback. To this end, we propose P-GenRM, the first Personalized Generative Reward Model with test-time user-based scaling. P-GenRM transforms preference signals into structured evaluation chains that derive adaptive personas and scoring rubrics across various scenarios. It further clusters users into User Prototypes and introduces a dual-granularity scaling mechanism: at the individual level, it adaptively scales and aggregates each user's scoring scheme; at the prototype level, it incorporates preferences from similar users. This design mitigates noise in inferred preferences and enhances generalization to unseen users through prototype-based transfer. Empirical results show that P-GenRM achieves state-of-the-art results on widely-used personalized reward model benchmarks, with an average improvement of 2.31%, and demonstrates strong generalization on an out-of-distribution dataset. Notably, Test-time User-based scaling provides an additional 3% boost, demonstrating stronger personalized alignment with test-time scalability.