RLCD: Reinforcement Learning vanuit Contrast Distillatie voor Taalmodelafstemming

Samenvatting

Wij stellen Reinforcement Learning from Contrast Distillation (RLCD) voor, een methode om taalmodelen af te stemmen op het volgen van natuurlijke taalprincipes zonder gebruik te maken van menselijke feedback. RLCD traint een voorkeursmodel met behulp van gesimuleerde voorkeursparen die zowel een hoogwaardig als een laagwaardig voorbeeld bevatten, gegenereerd met contrasterende positieve en negatieve prompts. Het voorkeursmodel wordt vervolgens gebruikt om een basis, niet-afgestemd taalmodel te verbeteren via reinforcement learning. Empirisch gezien presteert RLCD beter dan de RLAIF (Bai et al., 2022b) en contextdistillatie (Huang et al., 2022) baselines over drie diverse afstemmingstaken—onschadelijkheid, behulpzaamheid en het genereren van verhaallijnen—en op zowel 7B als 30B modelschalen voor de simulatie van voorkeursgegevens.

English

We propose Reinforcement Learning from Contrast Distillation (RLCD), a method for aligning language models to follow natural language principles without using human feedback. RLCD trains a preference model using simulated preference pairs that contain both a high-quality and low-quality example, generated using contrasting positive and negative prompts. The preference model is then used to improve a base unaligned language model via reinforcement learning. Empirically, RLCD outperforms RLAIF (Bai et al., 2022b) and context distillation (Huang et al., 2022) baselines across three diverse alignment tasks--harmlessness, helpfulness, and story outline generation--and on both 7B and 30B model scales for preference data simulation.

RLCD: Reinforcement Learning vanuit Contrast Distillatie voor Taalmodelafstemming

RLCD: Reinforcement Learning from Contrast Distillation for Language Model Alignment

Samenvatting

Support