RLCD: Verstärkungslernen durch Kontrastdistillation zur Ausrichtung von Sprachmodellen
RLCD: Reinforcement Learning from Contrast Distillation for Language Model Alignment
July 24, 2023
Autoren: Kevin Yang, Dan Klein, Asli Celikyilmaz, Nanyun Peng, Yuandong Tian
cs.AI
Zusammenfassung
Wir schlagen Reinforcement Learning from Contrast Distillation (RLCD) vor, eine Methode zur Ausrichtung von Sprachmodellen, um natürlichen Sprachprinzipien zu folgen, ohne menschliches Feedback zu verwenden. RLCD trainiert ein Präferenzmodell mithilfe von simulierten Präferenzpaaren, die sowohl ein hochwertiges als auch ein minderwertiges Beispiel enthalten, die durch kontrastierende positive und negative Prompts erzeugt werden. Das Präferenzmodell wird dann verwendet, um ein unausgerichtetes Basissprachmodell durch Reinforcement Learning zu verbessern. Empirisch übertrifft RLCD die Baselines von RLAIF (Bai et al., 2022b) und Context Distillation (Huang et al., 2022) in drei verschiedenen Ausrichtungsaufgaben – Unschädlichkeit, Hilfsbereitschaft und Erstellung von Geschichtenumrissen – sowie bei beiden Modellgrößen von 7B und 30B für die Simulation von Präferenzdaten.
English
We propose Reinforcement Learning from Contrast Distillation (RLCD), a method
for aligning language models to follow natural language principles without
using human feedback. RLCD trains a preference model using simulated preference
pairs that contain both a high-quality and low-quality example, generated using
contrasting positive and negative prompts. The preference model is then used to
improve a base unaligned language model via reinforcement learning.
Empirically, RLCD outperforms RLAIF (Bai et al., 2022b) and context
distillation (Huang et al., 2022) baselines across three diverse alignment
tasks--harmlessness, helpfulness, and story outline generation--and on both 7B
and 30B model scales for preference data simulation.