Algemene voorkeursmodellering met voorkeursrepresentaties voor het afstemmen van taalmodellen
General Preference Modeling with Preference Representations for Aligning Language Models
October 3, 2024
Auteurs: Yifan Zhang, Ge Zhang, Yue Wu, Kangping Xu, Quanquan Gu
cs.AI
Samenvatting
Het modelleren van menselijke voorkeuren is cruciaal voor het afstemmen van basismodellen op menselijke waarden. Traditionele beloningsmodelleringsmethoden, zoals het Bradley-Terry (BT) beloningsmodel, schieten tekort in expressiviteit, met name bij het omgaan met intransitieve voorkeuren. Hoewel begeleide paarvoorkeursmodellen (PairPM) algemene voorkeuren kunnen uitdrukken, is hun implementatie zeer ad-hoc en kan deze geen consistente voorkeurswaarschijnlijkheid van vergeleken paren garanderen. Bovendien leggen ze hoge computationele kosten op vanwege hun kwadratische vraagcomplexiteit bij het vergelijken van meerdere antwoorden. In dit artikel introduceren we voorkeursrepresentatie leren, een benadering die antwoorden inbedt in een latente ruimte om complexe voorkeursstructuren efficiënt vast te leggen, met een lineaire vraagcomplexiteit tot gevolg. Daarnaast stellen we voorkeurscore-gebaseerde Algemene VoorkeursOptimalisatie (GPO) voor, die beloningsgebaseerd versterkend leren van menselijke feedback generaliseert. Experimentele resultaten tonen aan dat ons Algemene Voorkeursrepresentatiemodel (GPM) het BT beloningsmodel overtreft op de RewardBench benchmark met een marge tot 5,6% en cyclische voorkeuren effectief modelleert waar elk BT beloningsmodel zich gedraagt als een willekeurige gok. Bovendien tonen evaluaties op neventaken zoals AlpacaEval2.0 en MT-Bench, na het post-trainen van het taalmodel met GPO en ons algemene voorkeursmodel, aanzienlijke prestatieverbeteringen met marges tot 9,3%. Deze bevindingen geven aan dat onze methode de afstemming van basismodellen op genuanceerde menselijke waarden kan verbeteren. De code is beschikbaar op https://github.com/general-preference/general-preference-model.
English
Modeling human preferences is crucial for aligning foundation models with
human values. Traditional reward modeling methods, such as the Bradley-Terry
(BT) reward model, fall short in expressiveness, particularly in addressing
intransitive preferences. Although supervised pair preference models (PairPM)
can express general preferences, their implementation is highly ad-hoc and
cannot guarantee a consistent preference probability of compared pairs.
Additionally, they impose high computational costs due to their quadratic query
complexity when comparing multiple responses. In this paper, we introduce
preference representation learning, an approach that embeds responses into a
latent space to capture intricate preference structures efficiently, achieving
linear query complexity. Additionally, we propose preference score-based
General Preference Optimization (GPO), which generalizes reward-based
reinforcement learning from human feedback. Experimental results show that our
General Preference representation model (GPM) outperforms the BT reward model
on the RewardBench benchmark with a margin of up to 5.6% and effectively models
cyclic preferences where any BT reward model behaves like a random guess.
Furthermore, evaluations on downstream tasks such as AlpacaEval2.0 and
MT-Bench, following the language model post-training with GPO and our general
preference model, reveal substantial performance improvements with margins up
to 9.3%. These findings indicate that our method may enhance the alignment of
foundation models with nuanced human values. The code is available at
https://github.com/general-preference/general-preference-model.Summary
AI-Generated Summary