Allgemeines Präferenzmodellieren mit Präferenzdarstellungen zur Ausrichtung von Sprachmodellen
General Preference Modeling with Preference Representations for Aligning Language Models
October 3, 2024
Autoren: Yifan Zhang, Ge Zhang, Yue Wu, Kangping Xu, Quanquan Gu
cs.AI
Zusammenfassung
Die Modellierung menschlicher Präferenzen ist entscheidend für die Ausrichtung von Grundlagenmodellen an menschlichen Werten. Traditionelle Belohnungsmodellierungsmethoden, wie das Bradley-Terry (BT) Belohnungsmodell, sind in ihrer Ausdruckskraft unzureichend, insbesondere bei der Behandlung von transitiven Präferenzen. Obwohl überwachte Paarpräferenzmodelle (PairPM) allgemeine Präferenzen ausdrücken können, ist ihre Implementierung sehr ad hoc und kann keine konsistente Präferenzwahrscheinlichkeit der verglichenen Paare garantieren. Darüber hinaus verursachen sie hohe Rechenkosten aufgrund ihrer quadratischen Abfragekomplexität bei Vergleichen von mehreren Antworten. In diesem Paper stellen wir das Präferenzrepräsentationslernen vor, einen Ansatz, der Antworten in einen latenten Raum einbettet, um komplexe Präferenzstrukturen effizient zu erfassen und eine lineare Abfragekomplexität zu erreichen. Zusätzlich schlagen wir die präferenzpunktbasierte General Preference Optimization (GPO) vor, die die belohnungsbasierte Verstärkungslernmethode aus menschlichem Feedback verallgemeinert. Experimentelle Ergebnisse zeigen, dass unser General Preference-Repräsentationsmodell (GPM) das BT-Belohnungsmodell auf dem RewardBench-Benchmark mit einem Vorsprung von bis zu 5,6% übertrifft und zyklische Präferenzen effektiv modelliert, bei denen jedes BT-Belohnungsmodell wie eine zufällige Vermutung agiert. Darüber hinaus zeigen Bewertungen bei nachgelagerten Aufgaben wie AlpacaEval2.0 und MT-Bench, nach dem Sprachmodell-Feinabstimmung mit GPO und unserem allgemeinen Präferenzmodell, signifikante Leistungsverbesserungen mit Vorsprüngen von bis zu 9,3%. Diese Ergebnisse deuten darauf hin, dass unsere Methode die Ausrichtung von Grundlagenmodellen an nuancierten menschlichen Werten verbessern könnte. Der Code ist verfügbar unter https://github.com/general-preference/general-preference-model.
English
Modeling human preferences is crucial for aligning foundation models with
human values. Traditional reward modeling methods, such as the Bradley-Terry
(BT) reward model, fall short in expressiveness, particularly in addressing
intransitive preferences. Although supervised pair preference models (PairPM)
can express general preferences, their implementation is highly ad-hoc and
cannot guarantee a consistent preference probability of compared pairs.
Additionally, they impose high computational costs due to their quadratic query
complexity when comparing multiple responses. In this paper, we introduce
preference representation learning, an approach that embeds responses into a
latent space to capture intricate preference structures efficiently, achieving
linear query complexity. Additionally, we propose preference score-based
General Preference Optimization (GPO), which generalizes reward-based
reinforcement learning from human feedback. Experimental results show that our
General Preference representation model (GPM) outperforms the BT reward model
on the RewardBench benchmark with a margin of up to 5.6% and effectively models
cyclic preferences where any BT reward model behaves like a random guess.
Furthermore, evaluations on downstream tasks such as AlpacaEval2.0 and
MT-Bench, following the language model post-training with GPO and our general
preference model, reveal substantial performance improvements with margins up
to 9.3%. These findings indicate that our method may enhance the alignment of
foundation models with nuanced human values. The code is available at
https://github.com/general-preference/general-preference-model.Summary
AI-Generated Summary