ChatPaper.aiChatPaper

P-GenRM:テスト時ユーザーベーススケーリングを備えたパーソナライズド生成報酬モデル

P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling

February 12, 2026
著者: Pinyi Zhang, Ting-En Lin, Yuchuan Wu, Jingyang Chen, Zongqi Wang, Hua Yang, Ze Xu, Fei Huang, Kai Zhang, Yongbin Li
cs.AI

要旨

大規模言語モデルのパーソナライズドアライメントは、一般に強化学習を通じて、応答を個々のユーザーの嗜好に適応させることを目的としている。主な課題は、オープンエンドなシナリオにおいて、正確でユーザー固有の報酬信号を取得することである。既存のパーソナライズド報酬モデルには、2つの根強い限界がある:(1) 多様でシナリオ固有の嗜好を、少数の固定的な評価原則に過度に単純化してしまうこと、(2) 限定的なフィードバックしか得られない新規ユーザーへの汎化に苦労することである。この問題に対処するため、我々はテスト時ユーザーベーススケーリングを備えた、初のパーソナライズド生成報酬モデルであるP-GenRMを提案する。P-GenRMは、嗜好信号を構造化された評価連鎖に変換し、様々なシナリオにわたって適応的なペルソナと評価基準を導出する。さらに、ユーザーをユーザープロトタイプにクラスタリングし、二重粒度のスケーリング機構を導入する:個人レベルでは、各ユーザーの評価スキームを適応的にスケーリングして集約し、プロトタイプレベルでは、類似ユーザーからの嗜好を組み込む。この設計により、推定された嗜好におけるノイズが軽減され、プロトタイプベースの転移を通じて未見のユーザーへの汎化が強化される。実験結果では、P-GenRMが広く使用されているパーソナライズド報酬モデルのベンチマークで平均2.31%の改善を示し、分布外データセットにおいても強力な汎化性能を発揮する。特に、テスト時ユーザーベーススケーリングは追加で3%の性能向上をもたらし、テスト時のスケーラビリティを備えたより強力なパーソナライズドアライメントを実証する。
English
Personalized alignment of large language models seeks to adapt responses to individual user preferences, typically via reinforcement learning. A key challenge is obtaining accurate, user-specific reward signals in open-ended scenarios. Existing personalized reward models face two persistent limitations: (1) oversimplifying diverse, scenario-specific preferences into a small, fixed set of evaluation principles, and (2) struggling with generalization to new users with limited feedback. To this end, we propose P-GenRM, the first Personalized Generative Reward Model with test-time user-based scaling. P-GenRM transforms preference signals into structured evaluation chains that derive adaptive personas and scoring rubrics across various scenarios. It further clusters users into User Prototypes and introduces a dual-granularity scaling mechanism: at the individual level, it adaptively scales and aggregates each user's scoring scheme; at the prototype level, it incorporates preferences from similar users. This design mitigates noise in inferred preferences and enhances generalization to unseen users through prototype-based transfer. Empirical results show that P-GenRM achieves state-of-the-art results on widely-used personalized reward model benchmarks, with an average improvement of 2.31%, and demonstrates strong generalization on an out-of-distribution dataset. Notably, Test-time User-based scaling provides an additional 3% boost, demonstrating stronger personalized alignment with test-time scalability.
PDF31February 14, 2026