MiCRo: Modelado de Mezclas y Enrutamiento Sensible al Contexto para el Aprendizaje de Preferencias Personalizadas
MiCRo: Mixture Modeling and Context-aware Routing for Personalized Preference Learning
May 30, 2025
Autores: Jingyan Shen, Jiarui Yao, Rui Yang, Yifan Sun, Feng Luo, Rui Pan, Tong Zhang, Han Zhao
cs.AI
Resumen
El modelado de recompensas es un paso clave en la construcción de modelos base seguros al aplicar el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) para alinear modelos de lenguaje de gran escala (LLMs). Sin embargo, el modelado de recompensas basado en el modelo de Bradley-Terry (BT) asume una función de recompensa global, lo que no logra capturar las preferencias humanas inherentemente diversas y heterogéneas. Por lo tanto, esta simplificación excesiva limita la capacidad de los LLMs para apoyar la personalización y la alineación pluralista. Teóricamente, demostramos que cuando las preferencias humanas siguen una distribución mixta de subgrupos diversos, un único modelo BT tiene un error irreducible. Aunque soluciones existentes, como el aprendizaje multiobjetivo con anotaciones detalladas, ayudan a abordar este problema, son costosas y están limitadas por atributos predefinidos, lo que no permite capturar plenamente la riqueza de los valores humanos. En este trabajo, presentamos MiCRo, un marco de dos etapas que mejora el aprendizaje de preferencias personalizadas al aprovechar grandes conjuntos de datos de preferencias binarias sin requerir anotaciones detalladas explícitas. En la primera etapa, MiCRo introduce un enfoque de modelado mixto consciente del contexto para capturar diversas preferencias humanas. En la segunda etapa, MiCRo integra una estrategia de enrutamiento en línea que adapta dinámicamente los pesos de la mezcla según el contexto específico para resolver ambigüedades, permitiendo una adaptación de preferencias eficiente y escalable con una supervisión adicional mínima. Los experimentos en múltiples conjuntos de datos de preferencias demuestran que MiCRo captura efectivamente las preferencias humanas diversas y mejora significativamente la personalización en tareas posteriores.
English
Reward modeling is a key step in building safe foundation models when
applying reinforcement learning from human feedback (RLHF) to align Large
Language Models (LLMs). However, reward modeling based on the Bradley-Terry
(BT) model assumes a global reward function, failing to capture the inherently
diverse and heterogeneous human preferences. Hence, such oversimplification
limits LLMs from supporting personalization and pluralistic alignment.
Theoretically, we show that when human preferences follow a mixture
distribution of diverse subgroups, a single BT model has an irreducible error.
While existing solutions, such as multi-objective learning with fine-grained
annotations, help address this issue, they are costly and constrained by
predefined attributes, failing to fully capture the richness of human values.
In this work, we introduce MiCRo, a two-stage framework that enhances
personalized preference learning by leveraging large-scale binary preference
datasets without requiring explicit fine-grained annotations. In the first
stage, MiCRo introduces context-aware mixture modeling approach to capture
diverse human preferences. In the second stage, MiCRo integrates an online
routing strategy that dynamically adapts mixture weights based on specific
context to resolve ambiguity, allowing for efficient and scalable preference
adaptation with minimal additional supervision. Experiments on multiple
preference datasets demonstrate that MiCRo effectively captures diverse human
preferences and significantly improves downstream personalization.