RLHFの安定化:アドバンテージモデルと選択的リハーサルによるアプローチ
Stabilizing RLHF through Advantage Model and Selective Rehearsal
September 18, 2023
著者: Baolin Peng, Linfeng Song, Ye Tian, Lifeng Jin, Haitao Mi, Dong Yu
cs.AI
要旨
大規模言語モデル(LLM)は自然言語処理に革命をもたらしましたが、RLHF(人間の価値観や嗜好に基づく強化学習)を用いてこれらのモデルを人間の価値観や嗜好に適合させることは依然として重要な課題です。この課題は、報酬ハッキングや破滅的忘却といった様々な不安定性によって特徴づけられています。本技術レポートでは、RLHFトレーニングを安定化するための2つの革新を提案します:1)アドバンテージモデル。これは、期待報酬と比較した追加報酬であるアドバンテージスコアを直接モデル化し、タスク間のスコア分布を調整することで報酬ハッキングを防ぎます。2)選択的リハーサル。これは、PPO(近接方策最適化)トレーニングと知識リハーサルのためのデータを戦略的に選択することで、破滅的忘却を軽減します。公開データセットおよび独自データセットを用いた実験分析により、提案手法がRLHFトレーニングの安定性を向上させるだけでなく、より高い報酬スコアと勝率を達成することが明らかになりました。
English
Large Language Models (LLMs) have revolutionized natural language processing,
yet aligning these models with human values and preferences using RLHF remains
a significant challenge. This challenge is characterized by various
instabilities, such as reward hacking and catastrophic forgetting. In this
technical report, we propose two innovations to stabilize RLHF training: 1)
Advantage Model, which directly models advantage score i.e., extra reward
compared to the expected rewards and regulates score distributions across tasks
to prevent reward hacking. 2) Selective Rehearsal, which mitigates catastrophic
forgetting by strategically selecting data for PPO training and knowledge
rehearsing. Our experimental analysis on public and proprietary datasets
reveals that the proposed methods not only increase stability in RLHF training
but also achieve higher reward scores and win rates.