Uno se Adapta a Todos: Meta Modelado de Recompensas para la Alineación Personalizada de LLM
One Adapts to Any: Meta Reward Modeling for Personalized LLM Alignment
January 26, 2026
Autores: Hongru Cai, Yongqi Li, Tiezheng Yu, Fengbin Zhu, Wenjie Wang, Fuli Feng, Wenjie Li
cs.AI
Resumen
La alineación de los Modelos de Lenguaje a Gran Escala (LLM) tiene como objetivo alinear las salidas con las preferencias humanas, y la alineación personalizada adapta aún más los modelos a usuarios individuales. Esto se basa en modelos de recompensa personalizados que capturan las preferencias específicas de cada usuario y proporcionan automáticamente retroalimentación individualizada. Sin embargo, el desarrollo de estos modelos enfrenta dos desafíos críticos: la escasez de retroalimentación de usuarios individuales y la necesidad de una adaptación eficiente a usuarios no vistos. Sostenemos que abordar estas limitaciones requiere un cambio de paradigma, pasando de ajustar datos para aprender preferencias de usuario a aprender el proceso de adaptación de preferencias. Para lograr esto, proponemos el Modelado de Recompensa Meta (MRM), que reformula el modelado de recompensa personalizado como un problema de meta-aprendizaje. Específicamente, representamos el modelo de recompensa de cada usuario como una combinación ponderada de funciones de recompensa base, y optimizamos la inicialización de estos pesos utilizando un marco estilo Meta-Aprendizaje Agnóstico al Modelo (MAML) para apoyar una adaptación rápida con retroalimentación limitada. Para garantizar robustez, introducimos el Objetivo de Personalización Robusta (RPO), que enfatiza más a los usuarios difíciles de aprender durante la meta-optimización. Experimentos exhaustivos en conjuntos de datos de preferencias personalizadas validan que MRM mejora la personalización con pocos ejemplos, incrementa la robustez del usuario y supera consistentemente a los métodos base.
English
Alignment of Large Language Models (LLMs) aims to align outputs with human preferences, and personalized alignment further adapts models to individual users. This relies on personalized reward models that capture user-specific preferences and automatically provide individualized feedback. However, developing these models faces two critical challenges: the scarcity of feedback from individual users and the need for efficient adaptation to unseen users. We argue that addressing these constraints requires a paradigm shift from fitting data to learn user preferences to learn the process of preference adaptation. To realize this, we propose Meta Reward Modeling (MRM), which reformulates personalized reward modeling as a meta-learning problem. Specifically, we represent each user's reward model as a weighted combination of base reward functions, and optimize the initialization of these weights using a Model-Agnostic Meta-Learning (MAML)-style framework to support fast adaptation under limited feedback. To ensure robustness, we introduce the Robust Personalization Objective (RPO), which places greater emphasis on hard-to-learn users during meta optimization. Extensive experiments on personalized preference datasets validate that MRM enhances few-shot personalization, improves user robustness, and consistently outperforms baselines.