MiCRo: Modelagem de Misturas e Roteamento Sensível ao Contexto para Aprendizado de Preferências Personalizadas
MiCRo: Mixture Modeling and Context-aware Routing for Personalized Preference Learning
May 30, 2025
Autores: Jingyan Shen, Jiarui Yao, Rui Yang, Yifan Sun, Feng Luo, Rui Pan, Tong Zhang, Han Zhao
cs.AI
Resumo
A modelagem de recompensas é uma etapa crucial na construção de modelos fundamentais seguros ao aplicar o aprendizado por reforço com feedback humano (RLHF) para alinhar Modelos de Linguagem de Grande Escala (LLMs). No entanto, a modelagem de recompensas baseada no modelo de Bradley-Terry (BT) assume uma função de recompensa global, falhando em capturar as preferências humanas inerentemente diversas e heterogêneas. Assim, essa simplificação excessiva limita os LLMs de suportar personalização e alinhamento pluralístico. Teoricamente, mostramos que, quando as preferências humanas seguem uma distribuição de mistura de subgrupos diversos, um único modelo BT possui um erro irredutível. Embora soluções existentes, como aprendizado multiobjetivo com anotações refinadas, ajudem a abordar esse problema, elas são custosas e limitadas por atributos predefinidos, falhando em capturar plenamente a riqueza dos valores humanos. Neste trabalho, introduzimos o MiCRo, uma estrutura de duas etapas que aprimora o aprendizado de preferências personalizadas ao aproveitar grandes conjuntos de dados binários de preferências sem exigir anotações refinadas explícitas. Na primeira etapa, o MiCRo introduz uma abordagem de modelagem de mistura sensível ao contexto para capturar as diversas preferências humanas. Na segunda etapa, o MiCRo integra uma estratégia de roteamento online que adapta dinamicamente os pesos da mistura com base no contexto específico para resolver ambiguidades, permitindo uma adaptação de preferências eficiente e escalável com supervisão adicional mínima. Experimentos em múltiplos conjuntos de dados de preferências demonstram que o MiCRo captura efetivamente as diversas preferências humanas e melhora significativamente a personalização em tarefas subsequentes.
English
Reward modeling is a key step in building safe foundation models when
applying reinforcement learning from human feedback (RLHF) to align Large
Language Models (LLMs). However, reward modeling based on the Bradley-Terry
(BT) model assumes a global reward function, failing to capture the inherently
diverse and heterogeneous human preferences. Hence, such oversimplification
limits LLMs from supporting personalization and pluralistic alignment.
Theoretically, we show that when human preferences follow a mixture
distribution of diverse subgroups, a single BT model has an irreducible error.
While existing solutions, such as multi-objective learning with fine-grained
annotations, help address this issue, they are costly and constrained by
predefined attributes, failing to fully capture the richness of human values.
In this work, we introduce MiCRo, a two-stage framework that enhances
personalized preference learning by leveraging large-scale binary preference
datasets without requiring explicit fine-grained annotations. In the first
stage, MiCRo introduces context-aware mixture modeling approach to capture
diverse human preferences. In the second stage, MiCRo integrates an online
routing strategy that dynamically adapts mixture weights based on specific
context to resolve ambiguity, allowing for efficient and scalable preference
adaptation with minimal additional supervision. Experiments on multiple
preference datasets demonstrate that MiCRo effectively captures diverse human
preferences and significantly improves downstream personalization.