ChatPaper.aiChatPaper

MiCRo : Modélisation par mélange et routage contextuel pour l'apprentissage des préférences personnalisées

MiCRo: Mixture Modeling and Context-aware Routing for Personalized Preference Learning

May 30, 2025
Auteurs: Jingyan Shen, Jiarui Yao, Rui Yang, Yifan Sun, Feng Luo, Rui Pan, Tong Zhang, Han Zhao
cs.AI

Résumé

La modélisation des récompenses est une étape clé dans la construction de modèles de base sûrs lors de l'application de l'apprentissage par renforcement à partir de retours humains (RLHF) pour aligner les grands modèles de langage (LLMs). Cependant, la modélisation des récompenses basée sur le modèle de Bradley-Terry (BT) suppose une fonction de récompense globale, ne parvenant pas à capturer la diversité et l'hétérogénéité inhérentes des préférences humaines. Par conséquent, cette simplification excessive limite les LLMs dans leur capacité à soutenir la personnalisation et l'alignement pluraliste. Théoriquement, nous montrons que lorsque les préférences humaines suivent une distribution en mélange de sous-groupes divers, un modèle BT unique présente une erreur irréductible. Bien que les solutions existantes, telles que l'apprentissage multi-objectif avec des annotations fines, aident à résoudre ce problème, elles sont coûteuses et limitées par des attributs prédéfinis, ne parvenant pas à capturer pleinement la richesse des valeurs humaines. Dans ce travail, nous introduisons MiCRo, un cadre en deux étapes qui améliore l'apprentissage des préférences personnalisées en exploitant des ensembles de données binaires de préférences à grande échelle sans nécessiter d'annotations fines explicites. Dans la première étape, MiCRo introduit une approche de modélisation en mélange contextuelle pour capturer les préférences humaines diverses. Dans la deuxième étape, MiCRo intègre une stratégie de routage en ligne qui adapte dynamiquement les poids du mélange en fonction du contexte spécifique pour résoudre les ambiguïtés, permettant une adaptation des préférences efficace et évolutive avec un minimum de supervision supplémentaire. Les expériences sur plusieurs ensembles de données de préférences démontrent que MiCRo capture efficacement les préférences humaines diverses et améliore significativement la personnalisation en aval.
English
Reward modeling is a key step in building safe foundation models when applying reinforcement learning from human feedback (RLHF) to align Large Language Models (LLMs). However, reward modeling based on the Bradley-Terry (BT) model assumes a global reward function, failing to capture the inherently diverse and heterogeneous human preferences. Hence, such oversimplification limits LLMs from supporting personalization and pluralistic alignment. Theoretically, we show that when human preferences follow a mixture distribution of diverse subgroups, a single BT model has an irreducible error. While existing solutions, such as multi-objective learning with fine-grained annotations, help address this issue, they are costly and constrained by predefined attributes, failing to fully capture the richness of human values. In this work, we introduce MiCRo, a two-stage framework that enhances personalized preference learning by leveraging large-scale binary preference datasets without requiring explicit fine-grained annotations. In the first stage, MiCRo introduces context-aware mixture modeling approach to capture diverse human preferences. In the second stage, MiCRo integrates an online routing strategy that dynamically adapts mixture weights based on specific context to resolve ambiguity, allowing for efficient and scalable preference adaptation with minimal additional supervision. Experiments on multiple preference datasets demonstrate that MiCRo effectively captures diverse human preferences and significantly improves downstream personalization.
PDF152June 3, 2025