MiCRo: Modelado de Mezclas y Enrutamiento Sensible al Contexto para el Aprendizaje de Preferencias Personalizadas

Resumen

El modelado de recompensas es un paso clave en la construcción de modelos base seguros al aplicar el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) para alinear modelos de lenguaje de gran escala (LLMs). Sin embargo, el modelado de recompensas basado en el modelo de Bradley-Terry (BT) asume una función de recompensa global, lo que no logra capturar las preferencias humanas inherentemente diversas y heterogéneas. Por lo tanto, esta simplificación excesiva limita la capacidad de los LLMs para apoyar la personalización y la alineación pluralista. Teóricamente, demostramos que cuando las preferencias humanas siguen una distribución mixta de subgrupos diversos, un único modelo BT tiene un error irreducible. Aunque soluciones existentes, como el aprendizaje multiobjetivo con anotaciones detalladas, ayudan a abordar este problema, son costosas y están limitadas por atributos predefinidos, lo que no permite capturar plenamente la riqueza de los valores humanos. En este trabajo, presentamos MiCRo, un marco de dos etapas que mejora el aprendizaje de preferencias personalizadas al aprovechar grandes conjuntos de datos de preferencias binarias sin requerir anotaciones detalladas explícitas. En la primera etapa, MiCRo introduce un enfoque de modelado mixto consciente del contexto para capturar diversas preferencias humanas. En la segunda etapa, MiCRo integra una estrategia de enrutamiento en línea que adapta dinámicamente los pesos de la mezcla según el contexto específico para resolver ambigüedades, permitiendo una adaptación de preferencias eficiente y escalable con una supervisión adicional mínima. Los experimentos en múltiples conjuntos de datos de preferencias demuestran que MiCRo captura efectivamente las preferencias humanas diversas y mejora significativamente la personalización en tareas posteriores.

English

Reward modeling is a key step in building safe foundation models when applying reinforcement learning from human feedback (RLHF) to align Large Language Models (LLMs). However, reward modeling based on the Bradley-Terry (BT) model assumes a global reward function, failing to capture the inherently diverse and heterogeneous human preferences. Hence, such oversimplification limits LLMs from supporting personalization and pluralistic alignment. Theoretically, we show that when human preferences follow a mixture distribution of diverse subgroups, a single BT model has an irreducible error. While existing solutions, such as multi-objective learning with fine-grained annotations, help address this issue, they are costly and constrained by predefined attributes, failing to fully capture the richness of human values. In this work, we introduce MiCRo, a two-stage framework that enhances personalized preference learning by leveraging large-scale binary preference datasets without requiring explicit fine-grained annotations. In the first stage, MiCRo introduces context-aware mixture modeling approach to capture diverse human preferences. In the second stage, MiCRo integrates an online routing strategy that dynamically adapts mixture weights based on specific context to resolve ambiguity, allowing for efficient and scalable preference adaptation with minimal additional supervision. Experiments on multiple preference datasets demonstrate that MiCRo effectively captures diverse human preferences and significantly improves downstream personalization.

MiCRo: Modelado de Mezclas y Enrutamiento Sensible al Contexto para el Aprendizaje de Preferencias Personalizadas

MiCRo: Mixture Modeling and Context-aware Routing for Personalized Preference Learning

Resumen

Support