ChatPaper.aiChatPaper

Allgemeines Präferenzmodellieren mit Präferenzdarstellungen zur Ausrichtung von Sprachmodellen

General Preference Modeling with Preference Representations for Aligning Language Models

October 3, 2024
Autoren: Yifan Zhang, Ge Zhang, Yue Wu, Kangping Xu, Quanquan Gu
cs.AI

Zusammenfassung

Die Modellierung menschlicher Präferenzen ist entscheidend für die Ausrichtung von Grundlagenmodellen an menschlichen Werten. Traditionelle Belohnungsmodellierungsmethoden, wie das Bradley-Terry (BT) Belohnungsmodell, sind in ihrer Ausdruckskraft unzureichend, insbesondere bei der Behandlung von transitiven Präferenzen. Obwohl überwachte Paarpräferenzmodelle (PairPM) allgemeine Präferenzen ausdrücken können, ist ihre Implementierung sehr ad hoc und kann keine konsistente Präferenzwahrscheinlichkeit der verglichenen Paare garantieren. Darüber hinaus verursachen sie hohe Rechenkosten aufgrund ihrer quadratischen Abfragekomplexität bei Vergleichen von mehreren Antworten. In diesem Paper stellen wir das Präferenzrepräsentationslernen vor, einen Ansatz, der Antworten in einen latenten Raum einbettet, um komplexe Präferenzstrukturen effizient zu erfassen und eine lineare Abfragekomplexität zu erreichen. Zusätzlich schlagen wir die präferenzpunktbasierte General Preference Optimization (GPO) vor, die die belohnungsbasierte Verstärkungslernmethode aus menschlichem Feedback verallgemeinert. Experimentelle Ergebnisse zeigen, dass unser General Preference-Repräsentationsmodell (GPM) das BT-Belohnungsmodell auf dem RewardBench-Benchmark mit einem Vorsprung von bis zu 5,6% übertrifft und zyklische Präferenzen effektiv modelliert, bei denen jedes BT-Belohnungsmodell wie eine zufällige Vermutung agiert. Darüber hinaus zeigen Bewertungen bei nachgelagerten Aufgaben wie AlpacaEval2.0 und MT-Bench, nach dem Sprachmodell-Feinabstimmung mit GPO und unserem allgemeinen Präferenzmodell, signifikante Leistungsverbesserungen mit Vorsprüngen von bis zu 9,3%. Diese Ergebnisse deuten darauf hin, dass unsere Methode die Ausrichtung von Grundlagenmodellen an nuancierten menschlichen Werten verbessern könnte. Der Code ist verfügbar unter https://github.com/general-preference/general-preference-model.
English
Modeling human preferences is crucial for aligning foundation models with human values. Traditional reward modeling methods, such as the Bradley-Terry (BT) reward model, fall short in expressiveness, particularly in addressing intransitive preferences. Although supervised pair preference models (PairPM) can express general preferences, their implementation is highly ad-hoc and cannot guarantee a consistent preference probability of compared pairs. Additionally, they impose high computational costs due to their quadratic query complexity when comparing multiple responses. In this paper, we introduce preference representation learning, an approach that embeds responses into a latent space to capture intricate preference structures efficiently, achieving linear query complexity. Additionally, we propose preference score-based General Preference Optimization (GPO), which generalizes reward-based reinforcement learning from human feedback. Experimental results show that our General Preference representation model (GPM) outperforms the BT reward model on the RewardBench benchmark with a margin of up to 5.6% and effectively models cyclic preferences where any BT reward model behaves like a random guess. Furthermore, evaluations on downstream tasks such as AlpacaEval2.0 and MT-Bench, following the language model post-training with GPO and our general preference model, reveal substantial performance improvements with margins up to 9.3%. These findings indicate that our method may enhance the alignment of foundation models with nuanced human values. The code is available at https://github.com/general-preference/general-preference-model.

Summary

AI-Generated Summary

PDF94November 16, 2024