Uno Si Adatta a Tutti: Meta Reward Modeling per l'Allineamento Personalizzato di LLM

Abstract

L'allineamento dei Large Language Model (LLM) mira ad allineare gli output con le preferenze umane, e l'allineamento personalizzato adatta ulteriormente i modelli ai singoli utenti. Ciò si basa su modelli di ricompensa personalizzati che catturano le preferenze specifiche dell'utente e forniscono automaticamente un feedback individualizzato. Tuttavia, lo sviluppo di questi modelli affronta due sfide critiche: la scarsità di feedback da parte dei singoli utenti e la necessità di un adattamento efficiente a utenti non visti. Sosteniamo che affrontare questi vincoli richieda un cambio di paradigma, passando dall'adattamento ai dati per apprendere le preferenze degli utenti all'apprendimento del processo di adattamento delle preferenze. Per realizzare ciò, proponiamo il Meta Reward Modeling (MRM), che riformula la modellazione della ricompensa personalizzata come un problema di meta-apprendimento. Nello specifico, rappresentiamo il modello di ricompensa di ciascun utente come una combinazione ponderata di funzioni di ricompensa di base, e ottimizziamo l'inizializzazione di questi pesi utilizzando un framework in stile Model-Agnostic Meta-Learning (MAML) per supportare un rapido adattamento con feedback limitati. Per garantire robustezza, introduciamo l'Obiettivo di Personalizzazione Robusta (RPO), che pone maggiore enfasi sugli utenti difficili da apprendere durante la meta-ottimizzazione. Esperimenti estesi su dataset di preferenze personalizzate convalidano che MRM migliora la personalizzazione con pochi esempi, aumenta la robustezza dell'utente e supera costantemente i metodi di base.

English

Alignment of Large Language Models (LLMs) aims to align outputs with human preferences, and personalized alignment further adapts models to individual users. This relies on personalized reward models that capture user-specific preferences and automatically provide individualized feedback. However, developing these models faces two critical challenges: the scarcity of feedback from individual users and the need for efficient adaptation to unseen users. We argue that addressing these constraints requires a paradigm shift from fitting data to learn user preferences to learn the process of preference adaptation. To realize this, we propose Meta Reward Modeling (MRM), which reformulates personalized reward modeling as a meta-learning problem. Specifically, we represent each user's reward model as a weighted combination of base reward functions, and optimize the initialization of these weights using a Model-Agnostic Meta-Learning (MAML)-style framework to support fast adaptation under limited feedback. To ensure robustness, we introduce the Robust Personalization Objective (RPO), which places greater emphasis on hard-to-learn users during meta optimization. Extensive experiments on personalized preference datasets validate that MRM enhances few-shot personalization, improves user robustness, and consistently outperforms baselines.

Uno Si Adatta a Tutti: Meta Reward Modeling per l'Allineamento Personalizzato di LLM

One Adapts to Any: Meta Reward Modeling for Personalized LLM Alignment

Abstract

Support