Um Se Adapta a Todos: Meta Modelagem de Recompensa para Alinhamento Personalizado de LLMs

Resumo

O Alinhamento de Grandes Modelos de Linguagem (LLMs) visa alinhar as saídas com as preferências humanas, e o alinhamento personalizado adapta ainda mais os modelos a utilizadores individuais. Isto depende de modelos de recompensa personalizados que capturam preferências específicas do utilizador e fornecem automaticamente *feedback* individualizado. No entanto, o desenvolvimento destes modelos enfrenta dois desafios críticos: a escassez de *feedback* de utilizadores individuais e a necessidade de uma adaptação eficiente a utilizadores não vistos. Argumentamos que abordar estas restrições requer uma mudança de paradigma, passando de ajustar dados para aprender preferências do utilizador para aprender o processo de adaptação de preferências. Para concretizar isto, propomos a Modelação de Recompensa Meta (MRM), que reformula a modelação de recompensa personalizada como um problema de *meta-learning*. Especificamente, representamos o modelo de recompensa de cada utilizador como uma combinação ponderada de funções de recompensa base, e otimizamos a inicialização destes pesos usando uma estrutura do tipo Model-Agnostic Meta-Learning (MAML) para suportar uma adaptação rápida com *feedback* limitado. Para garantir robustez, introduzimos o Objetivo de Personalização Robusta (RPO), que coloca maior ênfase nos utilizadores difíceis de aprender durante a meta-otimização. Experiências extensas em conjuntos de dados de preferências personalizadas validam que a MRM melhora a personalização com poucos exemplos, aumenta a robustez do utilizador e supera consistentemente os métodos de comparação.

English

Alignment of Large Language Models (LLMs) aims to align outputs with human preferences, and personalized alignment further adapts models to individual users. This relies on personalized reward models that capture user-specific preferences and automatically provide individualized feedback. However, developing these models faces two critical challenges: the scarcity of feedback from individual users and the need for efficient adaptation to unseen users. We argue that addressing these constraints requires a paradigm shift from fitting data to learn user preferences to learn the process of preference adaptation. To realize this, we propose Meta Reward Modeling (MRM), which reformulates personalized reward modeling as a meta-learning problem. Specifically, we represent each user's reward model as a weighted combination of base reward functions, and optimize the initialization of these weights using a Model-Agnostic Meta-Learning (MAML)-style framework to support fast adaptation under limited feedback. To ensure robustness, we introduce the Robust Personalization Objective (RPO), which places greater emphasis on hard-to-learn users during meta optimization. Extensive experiments on personalized preference datasets validate that MRM enhances few-shot personalization, improves user robustness, and consistently outperforms baselines.

Um Se Adapta a Todos: Meta Modelagem de Recompensa para Alinhamento Personalizado de LLMs

One Adapts to Any: Meta Reward Modeling for Personalized LLM Alignment

Resumo

Support