RLCD : Apprentissage par Renforcement à partir de Distillation par Contraste pour l'Alignement des Modèles de Langage
RLCD: Reinforcement Learning from Contrast Distillation for Language Model Alignment
July 24, 2023
Auteurs: Kevin Yang, Dan Klein, Asli Celikyilmaz, Nanyun Peng, Yuandong Tian
cs.AI
Résumé
Nous proposons le Reinforcement Learning from Contrast Distillation (RLCD), une méthode pour aligner les modèles de langage afin qu'ils suivent des principes de langage naturel sans utiliser de feedback humain. RLCD entraîne un modèle de préférence en utilisant des paires de préférences simulées contenant à la fois un exemple de haute qualité et un exemple de basse qualité, générés à l'aide de prompts contrastés positifs et négatifs. Le modèle de préférence est ensuite utilisé pour améliorer un modèle de langage de base non aligné via l'apprentissage par renforcement. Empiriquement, RLCD surpasse les bases de référence RLAIF (Bai et al., 2022b) et la distillation contextuelle (Huang et al., 2022) sur trois tâches d'alignement diverses—l'innocuité, l'utilité et la génération de synopsis—et sur les échelles de modèles 7B et 30B pour la simulation de données de préférence.
English
We propose Reinforcement Learning from Contrast Distillation (RLCD), a method
for aligning language models to follow natural language principles without
using human feedback. RLCD trains a preference model using simulated preference
pairs that contain both a high-quality and low-quality example, generated using
contrasting positive and negative prompts. The preference model is then used to
improve a base unaligned language model via reinforcement learning.
Empirically, RLCD outperforms RLAIF (Bai et al., 2022b) and context
distillation (Huang et al., 2022) baselines across three diverse alignment
tasks--harmlessness, helpfulness, and story outline generation--and on both 7B
and 30B model scales for preference data simulation.