Transformation und Kombination von Belohnungen zur Ausrichtung großer Sprachmodelle
Transforming and Combining Rewards for Aligning Large Language Models
February 1, 2024
Autoren: Zihao Wang, Chirag Nagpal, Jonathan Berant, Jacob Eisenstein, Alex D'Amour, Sanmi Koyejo, Victor Veitch
cs.AI
Zusammenfassung
Ein gängiger Ansatz, um Sprachmodelle an menschliche Präferenzen anzupassen, besteht darin, zunächst ein Belohnungsmodell aus Präferenzdaten zu lernen und dieses dann zu verwenden, um das Sprachmodell zu aktualisieren. Wir untersuchen zwei eng verwandte Probleme, die bei diesem Ansatz auftreten. Erstens: Jede monotone Transformation des Belohnungsmodells erhält die Präferenzrangfolge; gibt es eine Wahl, die „besser“ ist als andere? Zweitens möchten wir Sprachmodelle oft an mehrere Eigenschaften anpassen: Wie sollten wir mehrere Belohnungsmodelle kombinieren? Mithilfe einer probabilistischen Interpretation des Anpassungsverfahrens identifizieren wir eine natürliche Wahl für die Transformation (im häufigen Fall von) Belohnungen, die aus Bradley-Terry-Präferenzmodellen gelernt wurden. Diese abgeleitete Transformation hat zwei wichtige Eigenschaften. Erstens betont sie die Verbesserung von schlecht abschneidenden Ausgaben, anstatt solcher, die bereits gut abschneiden. Dies mildert sowohl Unteranpassung (bei der einige Eingaben nicht verbessert werden) als auch Belohnungsmanipulation (bei der das Modell lernt, Fehlspezifikationen des Belohnungsmodells auszunutzen). Zweitens ermöglicht sie eine prinzipielle Aggregation von Belohnungen, indem sie die Summation mit logischer Konjunktion verknüpft: Die Summe der transformierten Belohnungen entspricht der Wahrscheinlichkeit, dass die Ausgabe in allen gemessenen Eigenschaften „gut“ ist, in einem präzise definierten Sinn. Experimente, bei denen Sprachmodelle mithilfe von RLHF sowohl hilfreich als auch harmlos angepasst werden, zeigen erhebliche Verbesserungen gegenüber dem Baseline-Ansatz (ohne Transformation).
English
A common approach for aligning language models to human preferences is to
first learn a reward model from preference data, and then use this reward model
to update the language model. We study two closely related problems that arise
in this approach. First, any monotone transformation of the reward model
preserves preference ranking; is there a choice that is ``better'' than others?
Second, we often wish to align language models to multiple properties: how
should we combine multiple reward models? Using a probabilistic interpretation
of the alignment procedure, we identify a natural choice for transformation for
(the common case of) rewards learned from Bradley-Terry preference models. This
derived transformation has two important properties. First, it emphasizes
improving poorly-performing outputs, rather than outputs that already score
well. This mitigates both underfitting (where some prompts are not improved)
and reward hacking (where the model learns to exploit misspecification of the
reward model). Second, it enables principled aggregation of rewards by linking
summation to logical conjunction: the sum of transformed rewards corresponds to
the probability that the output is ``good'' in all measured properties, in a
sense we make precise. Experiments aligning language models to be both helpful
and harmless using RLHF show substantial improvements over the baseline
(non-transformed) approach.