SLiC-HF: 人間のフィードバックを用いたシーケンス尤度キャリブレーション
SLiC-HF: Sequence Likelihood Calibration with Human Feedback
May 17, 2023
著者: Yao Zhao, Rishabh Joshi, Tianqi Liu, Misha Khalman, Mohammad Saleh, Peter J. Liu
cs.AI
要旨
人間のフィードバックからの学習は、言語モデルを人間の好みに合わせるのに効果的であることが示されています。過去の研究では、人間の選好データに基づいて訓練された報酬モデルから割り当てられた報酬スコアを用いて言語モデルを最適化する、人間のフィードバックからの強化学習(RLHF)がしばしば用いられてきました。本研究では、最近導入されたシーケンス尤度較正(SLiC)が、人間の選好から効果的に学習するためにも使用できること(SLiC-HF)を示します。さらに、オフポリシーやオフライン強化学習データと同様に、異なるモデル用に収集された人間のフィードバックデータを用いてこれが可能であることを実証します。TL;DR要約タスクにおける自動評価および人間による評価実験では、SLiC-HFが教師ありファインチューニングのベースラインを大幅に改善することが示されました。さらに、SLiC-HFは過去の研究で使用されたPPO RLHFの実装に匹敵する代替手段を提供しつつ、実装がはるかに簡潔で、チューニングが容易であり、実際の計算効率も高いことが明らかになりました。
English
Learning from human feedback has been shown to be effective at aligning
language models with human preferences. Past work has often relied on
Reinforcement Learning from Human Feedback (RLHF), which optimizes the language
model using reward scores assigned from a reward model trained on human
preference data. In this work we show how the recently introduced Sequence
Likelihood Calibration (SLiC), can also be used to effectively learn from human
preferences (SLiC-HF). Furthermore, we demonstrate this can be done with human
feedback data collected for a different model, similar to off-policy, offline
RL data. Automatic and human evaluation experiments on the TL;DR summarization
task show that SLiC-HF significantly improves supervised fine-tuning baselines.
Furthermore, SLiC-HF presents a competitive alternative to the PPO RLHF
implementation used in past work while being much simpler to implement, easier
to tune and more computationally efficient in practice.