MiCRo: Modellazione a Miscele e Routing Sensibile al Contesto per l'Apprendimento delle Preferenze Personalizzate
MiCRo: Mixture Modeling and Context-aware Routing for Personalized Preference Learning
May 30, 2025
Autori: Jingyan Shen, Jiarui Yao, Rui Yang, Yifan Sun, Feng Luo, Rui Pan, Tong Zhang, Han Zhao
cs.AI
Abstract
La modellazione delle ricompense è un passaggio chiave nella costruzione di modelli di base sicuri quando si applica l'apprendimento per rinforzo basato sul feedback umano (RLHF) per allineare i Modelli Linguistici di Grande Dimensione (LLM). Tuttavia, la modellazione delle ricompense basata sul modello Bradley-Terry (BT) presuppone una funzione di ricompensa globale, non riuscendo a catturare le preferenze umane intrinsecamente diverse ed eterogenee. Di conseguenza, tale semplificazione eccessiva limita la capacità degli LLM di supportare la personalizzazione e l'allineamento pluralistico. Teoricamente, dimostriamo che quando le preferenze umane seguono una distribuzione mista di sottogruppi diversi, un singolo modello BT presenta un errore irriducibile. Sebbene le soluzioni esistenti, come l'apprendimento multi-obiettivo con annotazioni dettagliate, aiutino a risolvere questo problema, sono costose e vincolate da attributi predefiniti, non riuscendo a catturare appieno la ricchezza dei valori umani. In questo lavoro, introduciamo MiCRo, un framework a due fasi che migliora l'apprendimento delle preferenze personalizzate sfruttando grandi dataset di preferenze binarie senza richiedere annotazioni esplicite dettagliate. Nella prima fase, MiCRo introduce un approccio di modellazione mista contestuale per catturare le diverse preferenze umane. Nella seconda fase, MiCRo integra una strategia di routing online che adatta dinamicamente i pesi della miscela in base al contesto specifico per risolvere le ambiguità, consentendo un adattamento efficiente e scalabile delle preferenze con una supervisione aggiuntiva minima. Esperimenti su molteplici dataset di preferenze dimostrano che MiCRo cattura efficacemente le diverse preferenze umane e migliora significativamente la personalizzazione nei compiti successivi.
English
Reward modeling is a key step in building safe foundation models when
applying reinforcement learning from human feedback (RLHF) to align Large
Language Models (LLMs). However, reward modeling based on the Bradley-Terry
(BT) model assumes a global reward function, failing to capture the inherently
diverse and heterogeneous human preferences. Hence, such oversimplification
limits LLMs from supporting personalization and pluralistic alignment.
Theoretically, we show that when human preferences follow a mixture
distribution of diverse subgroups, a single BT model has an irreducible error.
While existing solutions, such as multi-objective learning with fine-grained
annotations, help address this issue, they are costly and constrained by
predefined attributes, failing to fully capture the richness of human values.
In this work, we introduce MiCRo, a two-stage framework that enhances
personalized preference learning by leveraging large-scale binary preference
datasets without requiring explicit fine-grained annotations. In the first
stage, MiCRo introduces context-aware mixture modeling approach to capture
diverse human preferences. In the second stage, MiCRo integrates an online
routing strategy that dynamically adapts mixture weights based on specific
context to resolve ambiguity, allowing for efficient and scalable preference
adaptation with minimal additional supervision. Experiments on multiple
preference datasets demonstrate that MiCRo effectively captures diverse human
preferences and significantly improves downstream personalization.