MiCRo: Mischungsmodellierung und kontextbewusstes Routing zur personalisierten Präferenzlernens
MiCRo: Mixture Modeling and Context-aware Routing for Personalized Preference Learning
May 30, 2025
Autoren: Jingyan Shen, Jiarui Yao, Rui Yang, Yifan Sun, Feng Luo, Rui Pan, Tong Zhang, Han Zhao
cs.AI
Zusammenfassung
Die Belohnungsmodellierung ist ein entscheidender Schritt beim Aufbau sicherer Basismodelle, wenn Reinforcement Learning from Human Feedback (RLHF) zur Ausrichtung von Large Language Models (LLMs) eingesetzt wird. Belohnungsmodellierung basierend auf dem Bradley-Terry (BT)-Modell geht jedoch von einer globalen Belohnungsfunktion aus und kann die inhärent vielfältigen und heterogenen menschlichen Präferenzen nicht erfassen. Diese Vereinfachung begrenzt daher die Fähigkeit von LLMs, Personalisierung und pluralistische Ausrichtung zu unterstützen. Theoretisch zeigen wir, dass, wenn menschliche Präferenzen einer Mischverteilung verschiedener Untergruppen folgen, ein einzelnes BT-Modell einen irreduziblen Fehler aufweist. Während bestehende Lösungen, wie Multi-Objective-Learning mit detaillierten Annotationen, dieses Problem teilweise adressieren, sind sie kostspielig und durch vordefinierte Attribute eingeschränkt, wodurch sie die Vielfalt menschlicher Werte nicht vollständig erfassen können. In dieser Arbeit stellen wir MiCRo vor, ein zweistufiges Framework, das die personalisierte Präferenzlernfähigkeit verbessert, indem es groß angelegte binäre Präferenzdatensätze nutzt, ohne explizite detaillierte Annotationen zu benötigen. In der ersten Stufe führt MiCRo einen kontextbewussten Mischmodellierungsansatz ein, um diverse menschliche Präferenzen zu erfassen. In der zweiten Stufe integriert MiCRo eine Online-Routing-Strategie, die die Mischgewichte dynamisch an spezifische Kontexte anpasst, um Mehrdeutigkeiten aufzulösen und eine effiziente und skalierbare Präferenzanpassung mit minimaler zusätzlicher Überwachung zu ermöglichen. Experimente mit mehreren Präferenzdatensätzen zeigen, dass MiCRo effektiv diverse menschliche Präferenzen erfasst und die nachgelagerte Personalisierung signifikant verbessert.
English
Reward modeling is a key step in building safe foundation models when
applying reinforcement learning from human feedback (RLHF) to align Large
Language Models (LLMs). However, reward modeling based on the Bradley-Terry
(BT) model assumes a global reward function, failing to capture the inherently
diverse and heterogeneous human preferences. Hence, such oversimplification
limits LLMs from supporting personalization and pluralistic alignment.
Theoretically, we show that when human preferences follow a mixture
distribution of diverse subgroups, a single BT model has an irreducible error.
While existing solutions, such as multi-objective learning with fine-grained
annotations, help address this issue, they are costly and constrained by
predefined attributes, failing to fully capture the richness of human values.
In this work, we introduce MiCRo, a two-stage framework that enhances
personalized preference learning by leveraging large-scale binary preference
datasets without requiring explicit fine-grained annotations. In the first
stage, MiCRo introduces context-aware mixture modeling approach to capture
diverse human preferences. In the second stage, MiCRo integrates an online
routing strategy that dynamically adapts mixture weights based on specific
context to resolve ambiguity, allowing for efficient and scalable preference
adaptation with minimal additional supervision. Experiments on multiple
preference datasets demonstrate that MiCRo effectively captures diverse human
preferences and significantly improves downstream personalization.