P-GenRM: Modelo de Recompensa Generativo Personalizado con Escalado Basado en el Usuario en Tiempo de Prueba
P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling
February 12, 2026
Autores: Pinyi Zhang, Ting-En Lin, Yuchuan Wu, Jingyang Chen, Zongqi Wang, Hua Yang, Ze Xu, Fei Huang, Kai Zhang, Yongbin Li
cs.AI
Resumen
La alineación personalizada de modelos de lenguaje de gran tamaño busca adaptar las respuestas a las preferencias individuales de los usuarios, generalmente mediante aprendizaje por refuerzo. Un desafío clave es obtener señales de recompensa precisas y específicas del usuario en escenarios de respuesta abierta. Los modelos de recompensa personalizados existentes enfrentan dos limitaciones persistentes: (1) simplifican en exceso las preferencias diversas y específicas del escenario reduciéndolas a un conjunto pequeño y fijo de principios de evaluación, y (2) tienen dificultades para generalizar a nuevos usuarios con retroalimentación limitada. Para ello, proponemos P-GenRM, el primer Modelo de Recompensa Generativo Personalizado con escalado en tiempo de prueba basado en el usuario. P-GenRM transforma las señales de preferencia en cadenas de evaluación estructuradas que derivan *personas* adaptativas y rúbricas de puntuación en diversos escenarios. Además, agrupa a los usuarios en Prototipos de Usuario e introduce un mecanismo de escalado de doble granularidad: a nivel individual, escala y agrega de forma adaptativa el esquema de puntuación de cada usuario; a nivel de prototipo, incorpora las preferencias de usuarios similares. Este diseño mitiga el ruido en las preferencias inferidas y mejora la generalización a usuarios no vistos mediante la transferencia basada en prototipos. Los resultados empíricos muestran que P-GenRM logra resultados de vanguardia en benchmarks ampliamente utilizados para modelos de recompensa personalizados, con una mejora promedio del 2.31%, y demuestra una fuerte generalización en un conjunto de datos fuera de distribución. Notablemente, el escalado en tiempo de prueba basado en el usuario proporciona una mejora adicional del 3%, demostrando una alineación personalizada más sólida con escalabilidad en tiempo de prueba.
English
Personalized alignment of large language models seeks to adapt responses to individual user preferences, typically via reinforcement learning. A key challenge is obtaining accurate, user-specific reward signals in open-ended scenarios. Existing personalized reward models face two persistent limitations: (1) oversimplifying diverse, scenario-specific preferences into a small, fixed set of evaluation principles, and (2) struggling with generalization to new users with limited feedback. To this end, we propose P-GenRM, the first Personalized Generative Reward Model with test-time user-based scaling. P-GenRM transforms preference signals into structured evaluation chains that derive adaptive personas and scoring rubrics across various scenarios. It further clusters users into User Prototypes and introduces a dual-granularity scaling mechanism: at the individual level, it adaptively scales and aggregates each user's scoring scheme; at the prototype level, it incorporates preferences from similar users. This design mitigates noise in inferred preferences and enhances generalization to unseen users through prototype-based transfer. Empirical results show that P-GenRM achieves state-of-the-art results on widely-used personalized reward model benchmarks, with an average improvement of 2.31%, and demonstrates strong generalization on an out-of-distribution dataset. Notably, Test-time User-based scaling provides an additional 3% boost, demonstrating stronger personalized alignment with test-time scalability.