MiCRo: Моделирование смесей и контекстно-зависимая маршрутизация для персонализированного обучения предпочтениям
MiCRo: Mixture Modeling and Context-aware Routing for Personalized Preference Learning
May 30, 2025
Авторы: Jingyan Shen, Jiarui Yao, Rui Yang, Yifan Sun, Feng Luo, Rui Pan, Tong Zhang, Han Zhao
cs.AI
Аннотация
Моделирование вознаграждения является ключевым этапом в создании безопасных базовых моделей при применении обучения с подкреплением на основе человеческой обратной связи (RLHF) для согласования крупных языковых моделей (LLM). Однако моделирование вознаграждения, основанное на модели Брэдли-Терри (BT), предполагает глобальную функцию вознаграждения, что не позволяет учесть изначально разнообразные и неоднородные человеческие предпочтения. Такое упрощение ограничивает способность LLM поддерживать персонализацию и плюралистическое согласование. Теоретически мы показываем, что когда человеческие предпочтения следуют смешанному распределению различных подгрупп, единая модель BT имеет неустранимую ошибку. Хотя существующие решения, такие как многозадачное обучение с детализированными аннотациями, помогают решить эту проблему, они являются затратными и ограничены предопределенными атрибутами, не позволяя полностью охватить богатство человеческих ценностей. В данной работе мы представляем MiCRo, двухэтапную структуру, которая улучшает обучение персонализированным предпочтениям, используя крупномасштабные наборы данных бинарных предпочтений без необходимости явных детализированных аннотаций. На первом этапе MiCRo вводит контекстно-зависимый подход к моделированию смесей для учета разнообразных человеческих предпочтений. На втором этапе MiCRo интегрирует стратегию онлайн-маршрутизации, которая динамически адаптирует веса смесей в зависимости от конкретного контекста для разрешения неоднозначности, что позволяет эффективно и масштабируемо адаптировать предпочтения с минимальным дополнительным контролем. Эксперименты на нескольких наборах данных предпочтений демонстрируют, что MiCRo эффективно учитывает разнообразные человеческие предпочтения и значительно улучшает персонализацию в последующих задачах.
English
Reward modeling is a key step in building safe foundation models when
applying reinforcement learning from human feedback (RLHF) to align Large
Language Models (LLMs). However, reward modeling based on the Bradley-Terry
(BT) model assumes a global reward function, failing to capture the inherently
diverse and heterogeneous human preferences. Hence, such oversimplification
limits LLMs from supporting personalization and pluralistic alignment.
Theoretically, we show that when human preferences follow a mixture
distribution of diverse subgroups, a single BT model has an irreducible error.
While existing solutions, such as multi-objective learning with fine-grained
annotations, help address this issue, they are costly and constrained by
predefined attributes, failing to fully capture the richness of human values.
In this work, we introduce MiCRo, a two-stage framework that enhances
personalized preference learning by leveraging large-scale binary preference
datasets without requiring explicit fine-grained annotations. In the first
stage, MiCRo introduces context-aware mixture modeling approach to capture
diverse human preferences. In the second stage, MiCRo integrates an online
routing strategy that dynamically adapts mixture weights based on specific
context to resolve ambiguity, allowing for efficient and scalable preference
adaptation with minimal additional supervision. Experiments on multiple
preference datasets demonstrate that MiCRo effectively captures diverse human
preferences and significantly improves downstream personalization.