RLCD: Apprendimento per Rinforzo da Distillazione Contrastiva per l'Allineamento dei Modelli Linguistici
RLCD: Reinforcement Learning from Contrast Distillation for Language Model Alignment
July 24, 2023
Autori: Kevin Yang, Dan Klein, Asli Celikyilmaz, Nanyun Peng, Yuandong Tian
cs.AI
Abstract
Proponiamo il Reinforcement Learning from Contrast Distillation (RLCD), un metodo per allineare i modelli linguistici a seguire principi di linguaggio naturale senza utilizzare feedback umano. RLCD addestra un modello di preferenza utilizzando coppie di preferenze simulate che contengono sia un esempio di alta qualità che uno di bassa qualità, generati mediante prompt contrastanti positivi e negativi. Il modello di preferenza viene poi utilizzato per migliorare un modello linguistico di base non allineato attraverso il reinforcement learning. Empiricamente, RLCD supera i benchmark di RLAIF (Bai et al., 2022b) e della distillazione contestuale (Huang et al., 2022) in tre diversi compiti di allineamento—innocuità, utilità e generazione di schemi narrativi—e su entrambe le scale di modelli da 7B e 30B per la simulazione di dati di preferenza.
English
We propose Reinforcement Learning from Contrast Distillation (RLCD), a method
for aligning language models to follow natural language principles without
using human feedback. RLCD trains a preference model using simulated preference
pairs that contain both a high-quality and low-quality example, generated using
contrasting positive and negative prompts. The preference model is then used to
improve a base unaligned language model via reinforcement learning.
Empirically, RLCD outperforms RLAIF (Bai et al., 2022b) and context
distillation (Huang et al., 2022) baselines across three diverse alignment
tasks--harmlessness, helpfulness, and story outline generation--and on both 7B
and 30B model scales for preference data simulation.