RLAIF: AIフィードバックによる人間のフィードバックからの強化学習のスケーリング
RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
September 1, 2023
著者: Harrison Lee, Samrat Phatale, Hassan Mansoor, Kellie Lu, Thomas Mesnard, Colton Bishop, Victor Carbune, Abhinav Rastogi
cs.AI
要旨
人間のフィードバックによる強化学習(RLHF)は、大規模言語モデル(LLM)を人間の好みに合わせるのに有効ですが、高品質な人間の嗜好ラベルを収集することが主要なボトルネックとなっています。本研究では、RLHFとAIフィードバックによる強化学習(RLAIF)——人間の代わりに既存のLLMが嗜好ラベルを付与する手法——を直接比較し、両者が同程度の改善をもたらすことを明らかにしました。要約タスクにおいて、人間の評価者は、RLAIFとRLHFの両方で生成されたテキストを、教師ありファインチューニングされたベースラインモデルよりも約70%のケースで好むことがわかりました。さらに、RLAIFとRLHFの要約を評価するよう求められた場合、人間は両方を同等の割合で好むことが示されました。これらの結果は、RLAIFが人間レベルの性能を発揮し得ることを示唆しており、RLHFのスケーラビリティ制限に対する潜在的な解決策を提供する可能性があります。
English
Reinforcement learning from human feedback (RLHF) is effective at aligning
large language models (LLMs) to human preferences, but gathering high quality
human preference labels is a key bottleneck. We conduct a head-to-head
comparison of RLHF vs. RL from AI Feedback (RLAIF) - a technique where
preferences are labeled by an off-the-shelf LLM in lieu of humans, and we find
that they result in similar improvements. On the task of summarization, human
evaluators prefer generations from both RLAIF and RLHF over a baseline
supervised fine-tuned model in ~70% of cases. Furthermore, when asked to rate
RLAIF vs. RLHF summaries, humans prefer both at equal rates. These results
suggest that RLAIF can yield human-level performance, offering a potential
solution to the scalability limitations of RLHF.Summary
AI-Generated Summary