Eén Past Zich Aan bij Allen: Meta Beloningsmodellering voor Gepersonaliseerde LLM-afstemming

Samenvatting

Afstemming van Large Language Models (LLM's) heeft als doel uitvoer af te stemmen op menselijke voorkeuren, en gepersonaliseerde afstemming past modellen verder aan op individuele gebruikers. Dit is gebaseerd op gepersonaliseerde beloningsmodellen die gebruikersspecifieke voorkeuren vastleggen en automatisch geïndividualiseerde feedback geven. De ontwikkeling van deze modellen wordt echter geconfronteerd met twee kritieke uitdagingen: de schaarste aan feedback van individuele gebruikers en de behoefte aan efficiënte aanpassing aan onbekende gebruikers. Wij stellen dat het aanpakken van deze beperkingen een paradigmaverschuiving vereist: van het aanpassen aan data om gebruikersvoorkeuren te leren, naar het leren van het proces van voorkeursaanpassing. Om dit te realiseren, stellen we Meta Reward Modeling (MRM) voor, dat gepersonaliseerde beloningsmodellering herformuleert als een meta-leerprobleem. Concreet vertegenwoordigen we het beloningsmodel van elke gebruiker als een gewogen combinatie van basisbeloningsfuncties, en optimaliseren we de initialisatie van deze gewichten met een Model-Agnostic Meta-Learning (MAML)-achtig framework om snelle aanpassing bij beperkte feedback te ondersteunen. Om robuustheid te waarborgen, introduceren we het Robuuste Personalisatiedoel (Robust Personalization Objective, RPO), dat tijdens de meta-optimalisatie meer nadruk legt op gebruikers die moeilijk aan te leren zijn. Uitgebreide experimenten op gepersonaliseerde voorkeursdatasets bevestigen dat MRM few-shot-personalisatie verbetert, de gebruikersrobuustheid verhoogt en consistent beter presteert dan baseline-methoden.

English

Alignment of Large Language Models (LLMs) aims to align outputs with human preferences, and personalized alignment further adapts models to individual users. This relies on personalized reward models that capture user-specific preferences and automatically provide individualized feedback. However, developing these models faces two critical challenges: the scarcity of feedback from individual users and the need for efficient adaptation to unseen users. We argue that addressing these constraints requires a paradigm shift from fitting data to learn user preferences to learn the process of preference adaptation. To realize this, we propose Meta Reward Modeling (MRM), which reformulates personalized reward modeling as a meta-learning problem. Specifically, we represent each user's reward model as a weighted combination of base reward functions, and optimize the initialization of these weights using a Model-Agnostic Meta-Learning (MAML)-style framework to support fast adaptation under limited feedback. To ensure robustness, we introduce the Robust Personalization Objective (RPO), which places greater emphasis on hard-to-learn users during meta optimization. Extensive experiments on personalized preference datasets validate that MRM enhances few-shot personalization, improves user robustness, and consistently outperforms baselines.

Eén Past Zich Aan bij Allen: Meta Beloningsmodellering voor Gepersonaliseerde LLM-afstemming

One Adapts to Any: Meta Reward Modeling for Personalized LLM Alignment

Samenvatting

Support