RLCD: 言語モデルアラインメントのためのコントラスト蒸留による強化学習
RLCD: Reinforcement Learning from Contrast Distillation for Language Model Alignment
July 24, 2023
著者: Kevin Yang, Dan Klein, Asli Celikyilmaz, Nanyun Peng, Yuandong Tian
cs.AI
要旨
我々は、人間のフィードバックを使用せずに言語モデルを自然言語の原則に沿わせるための手法として、Contrast Distillationによる強化学習(Reinforcement Learning from Contrast Distillation, RLCD)を提案する。RLCDでは、対照的なポジティブおよびネガティブなプロンプトを用いて生成された、高品質と低品質の例を含む模擬選好ペアを使用して選好モデルを訓練する。その後、この選好モデルを用いて、未調整のベース言語モデルを強化学習によって改善する。実験的には、RLCDは、RLAIF(Bai et al., 2022b)やコンテキスト蒸留(Huang et al., 2022)のベースラインを、無害性、有用性、ストーリーアウトライン生成という3つの多様なアライメントタスクにおいて、また7Bおよび30Bモデルスケールの選好データシミュレーションにおいて上回る性能を示した。
English
We propose Reinforcement Learning from Contrast Distillation (RLCD), a method
for aligning language models to follow natural language principles without
using human feedback. RLCD trains a preference model using simulated preference
pairs that contain both a high-quality and low-quality example, generated using
contrasting positive and negative prompts. The preference model is then used to
improve a base unaligned language model via reinforcement learning.
Empirically, RLCD outperforms RLAIF (Bai et al., 2022b) and context
distillation (Huang et al., 2022) baselines across three diverse alignment
tasks--harmlessness, helpfulness, and story outline generation--and on both 7B
and 30B model scales for preference data simulation.