ChatPaper.aiChatPaper

MiCRo: Mixture Modeling en Contextbewuste Routering voor Gepersonaliseerde Voorkeurenleren

MiCRo: Mixture Modeling and Context-aware Routing for Personalized Preference Learning

May 30, 2025
Auteurs: Jingyan Shen, Jiarui Yao, Rui Yang, Yifan Sun, Feng Luo, Rui Pan, Tong Zhang, Han Zhao
cs.AI

Samenvatting

Beloningsmodellering is een cruciale stap bij het ontwikkelen van veilige basis modellen wanneer reinforcement learning met menselijke feedback (RLHF) wordt toegepast om Large Language Models (LLMs) af te stemmen. Beloningsmodellering gebaseerd op het Bradley-Terry (BT) model veronderstelt echter een globale beloningsfunctie, waardoor het niet in staat is om de inherent diverse en heterogene menselijke voorkeuren vast te leggen. Deze oversimplificatie beperkt LLMs in het ondersteunen van personalisatie en pluralistische afstemming. Theoretisch laten we zien dat wanneer menselijke voorkeuren een mengverdeling van diverse subgroepen volgen, een enkel BT-model een onherleidbare fout heeft. Hoewel bestaande oplossingen, zoals multi-objectief leren met gedetailleerde annotaties, helpen om dit probleem aan te pakken, zijn ze kostbaar en beperkt door vooraf gedefinieerde attributen, waardoor ze niet volledig de rijkdom van menselijke waarden kunnen vastleggen. In dit werk introduceren we MiCRo, een tweestaps raamwerk dat gepersonaliseerd voorkeurenleren verbetert door gebruik te maken van grootschalige binaire voorkeursdatasets zonder expliciete gedetailleerde annotaties te vereisen. In de eerste fase introduceert MiCRo een contextbewuste mengmodelleringbenadering om diverse menselijke voorkeuren vast te leggen. In de tweede fase integreert MiCRo een online routeringsstrategie die de menggewichten dynamisch aanpast op basis van specifieke context om ambiguïteit op te lossen, waardoor efficiënte en schaalbare voorkeursaanpassing mogelijk wordt met minimale aanvullende supervisie. Experimenten op meerdere voorkeursdatasets tonen aan dat MiCRo effectief diverse menselijke voorkeuren vastlegt en de downstream personalisatie aanzienlijk verbetert.
English
Reward modeling is a key step in building safe foundation models when applying reinforcement learning from human feedback (RLHF) to align Large Language Models (LLMs). However, reward modeling based on the Bradley-Terry (BT) model assumes a global reward function, failing to capture the inherently diverse and heterogeneous human preferences. Hence, such oversimplification limits LLMs from supporting personalization and pluralistic alignment. Theoretically, we show that when human preferences follow a mixture distribution of diverse subgroups, a single BT model has an irreducible error. While existing solutions, such as multi-objective learning with fine-grained annotations, help address this issue, they are costly and constrained by predefined attributes, failing to fully capture the richness of human values. In this work, we introduce MiCRo, a two-stage framework that enhances personalized preference learning by leveraging large-scale binary preference datasets without requiring explicit fine-grained annotations. In the first stage, MiCRo introduces context-aware mixture modeling approach to capture diverse human preferences. In the second stage, MiCRo integrates an online routing strategy that dynamically adapts mixture weights based on specific context to resolve ambiguity, allowing for efficient and scalable preference adaptation with minimal additional supervision. Experiments on multiple preference datasets demonstrate that MiCRo effectively captures diverse human preferences and significantly improves downstream personalization.
PDF152June 3, 2025