L'un s'adapte à tous : modélisation métarécompense pour l'alignement personnalisé des grands modèles de langage
One Adapts to Any: Meta Reward Modeling for Personalized LLM Alignment
January 26, 2026
papers.authors: Hongru Cai, Yongqi Li, Tiezheng Yu, Fengbin Zhu, Wenjie Wang, Fuli Feng, Wenjie Li
cs.AI
papers.abstract
L'alignement des grands modèles de langage (LLM) vise à faire correspondre leurs sorties aux préférences humaines, et l'alignement personnalisé adapte davantage les modèles aux utilisateurs individuels. Celui-ci repose sur des modèles de récompense personnalisés qui capturent les préférences spécifiques à chaque utilisateur et fournissent automatiquement un retour individualisé. Cependant, le développement de ces modèles se heurte à deux défis majeurs : la rareté des retours des utilisateurs individuels et la nécessité d'une adaptation efficace à de nouveaux utilisateurs. Nous soutenons que relever ces contraintes nécessite un changement de paradigme, passant de l'ajustement aux données pour apprendre les préférences à l'apprentissage du processus d'adaptation des préférences. Pour concrétiser cela, nous proposons le Méta-modèle de Récompense (MRM), qui reformule la modélisation personnalisée de la récompense comme un problème de méta-apprentissage. Plus précisément, nous représentons le modèle de récompense de chaque utilisateur comme une combinaison pondérée de fonctions de récompense de base, et nous optimisons l'initialisation de ces poids à l'aide d'un cadre de type MAML (Model-Agnostic Meta-Learning) pour favoriser une adaptation rapide avec un retour limité. Pour garantir la robustesse, nous introduisons l'Objectif de Personnalisation Robuste (RPO), qui accorde une importance accrue aux utilisateurs difficiles à modéliser lors de l'optimisation méta. Des expériences approfondies sur des ensembles de données de préférences personnalisées valident que le MRM améliore la personnalisation en few-shot, renforce la robustesse utilisateur et surpasse constamment les méthodes de référence.
English
Alignment of Large Language Models (LLMs) aims to align outputs with human preferences, and personalized alignment further adapts models to individual users. This relies on personalized reward models that capture user-specific preferences and automatically provide individualized feedback. However, developing these models faces two critical challenges: the scarcity of feedback from individual users and the need for efficient adaptation to unseen users. We argue that addressing these constraints requires a paradigm shift from fitting data to learn user preferences to learn the process of preference adaptation. To realize this, we propose Meta Reward Modeling (MRM), which reformulates personalized reward modeling as a meta-learning problem. Specifically, we represent each user's reward model as a weighted combination of base reward functions, and optimize the initialization of these weights using a Model-Agnostic Meta-Learning (MAML)-style framework to support fast adaptation under limited feedback. To ensure robustness, we introduce the Robust Personalization Objective (RPO), which places greater emphasis on hard-to-learn users during meta optimization. Extensive experiments on personalized preference datasets validate that MRM enhances few-shot personalization, improves user robustness, and consistently outperforms baselines.