ChatPaper.aiChatPaper

RLCD: Обучение с подкреплением на основе контрастного дистилляции для согласования языковых моделей

RLCD: Reinforcement Learning from Contrast Distillation for Language Model Alignment

July 24, 2023
Авторы: Kevin Yang, Dan Klein, Asli Celikyilmaz, Nanyun Peng, Yuandong Tian
cs.AI

Аннотация

Мы предлагаем метод Обучения с Подкреплением на основе Контрастной Дистилляции (RLCD) для согласования языковых моделей с принципами естественного языка без использования обратной связи от человека. RLCD обучает модель предпочтений с использованием смоделированных пар предпочтений, содержащих как высококачественные, так и низкокачественные примеры, сгенерированные с помощью контрастных положительных и отрицательных запросов. Затем модель предпочтений используется для улучшения базовой несогласованной языковой модели посредством обучения с подкреплением. Эмпирически RLCD превосходит базовые методы RLAIF (Bai et al., 2022b) и контекстной дистилляции (Huang et al., 2022) в трех различных задачах согласования — безвредности, полезности и генерации сюжетных контуров — а также на масштабах моделей 7B и 30B для симуляции данных предпочтений.
English
We propose Reinforcement Learning from Contrast Distillation (RLCD), a method for aligning language models to follow natural language principles without using human feedback. RLCD trains a preference model using simulated preference pairs that contain both a high-quality and low-quality example, generated using contrasting positive and negative prompts. The preference model is then used to improve a base unaligned language model via reinforcement learning. Empirically, RLCD outperforms RLAIF (Bai et al., 2022b) and context distillation (Huang et al., 2022) baselines across three diverse alignment tasks--harmlessness, helpfulness, and story outline generation--and on both 7B and 30B model scales for preference data simulation.
PDF100December 15, 2024