RLCD: Обучение с подкреплением на основе контрастного дистилляции для согласования языковых моделей
RLCD: Reinforcement Learning from Contrast Distillation for Language Model Alignment
July 24, 2023
Авторы: Kevin Yang, Dan Klein, Asli Celikyilmaz, Nanyun Peng, Yuandong Tian
cs.AI
Аннотация
Мы предлагаем метод Обучения с Подкреплением на основе Контрастной Дистилляции (RLCD) для согласования языковых моделей с принципами естественного языка без использования обратной связи от человека. RLCD обучает модель предпочтений с использованием смоделированных пар предпочтений, содержащих как высококачественные, так и низкокачественные примеры, сгенерированные с помощью контрастных положительных и отрицательных запросов. Затем модель предпочтений используется для улучшения базовой несогласованной языковой модели посредством обучения с подкреплением. Эмпирически RLCD превосходит базовые методы RLAIF (Bai et al., 2022b) и контекстной дистилляции (Huang et al., 2022) в трех различных задачах согласования — безвредности, полезности и генерации сюжетных контуров — а также на масштабах моделей 7B и 30B для симуляции данных предпочтений.
English
We propose Reinforcement Learning from Contrast Distillation (RLCD), a method
for aligning language models to follow natural language principles without
using human feedback. RLCD trains a preference model using simulated preference
pairs that contain both a high-quality and low-quality example, generated using
contrasting positive and negative prompts. The preference model is then used to
improve a base unaligned language model via reinforcement learning.
Empirically, RLCD outperforms RLAIF (Bai et al., 2022b) and context
distillation (Huang et al., 2022) baselines across three diverse alignment
tasks--harmlessness, helpfulness, and story outline generation--and on both 7B
and 30B model scales for preference data simulation.