大規模言語モデルに強化学習を用いて推論能力を教える
Teaching Large Language Models to Reason with Reinforcement Learning
March 7, 2024
著者: Alex Havrilla, Yuqing Du, Sharath Chandra Raparthy, Christoforos Nalmpantis, Jane Dwivedi-Yu, Maksym Zhuravinskyi, Eric Hambro, Sainbayar Sukhbaatar, Roberta Raileanu
cs.AI
要旨
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)の出力を人間の選好に合わせるための主要なアプローチとして登場しました。RLHFの成功に触発され、我々は複数のフィードバック学習アルゴリズム(Expert Iteration、近接方策最適化(PPO)、リターン条件付き強化学習)がLLMの推論能力を向上させる性能を調査しました。我々は、LLMに提供されるスパースおよび密な報酬を、ヒューリスティックに、また学習済み報酬モデルを通じて検討しました。さらに、教師ありファインチューニング(SFT)データの有無にかかわらず、複数のモデルサイズと初期化から開始しました。全体として、すべてのアルゴリズムが同等の性能を示し、ほとんどの場合でExpert Iterationが最良の結果を示しました。驚くべきことに、Expert Iterationのサンプル複雑性はPPOと類似しており、事前学習済みチェックポイントから収束するために最大で10^6オーダーのサンプルを必要とすることがわかりました。我々はこれがなぜ起こるのかを調査し、RLトレーニング中にモデルがSFTモデルによって既に生成された解を大幅に超えて探索しないためであると結論付けました。さらに、SFTトレーニング中のmaj@1とpass@96メトリックの性能のトレードオフについて議論し、逆にRLトレーニングが両方を同時に改善する方法についても考察しました。最後に、我々の知見がRLHFおよびLLMファインチューニングにおけるRLの将来の役割に与える影響について議論します。
English
Reinforcement Learning from Human Feedback (RLHF) has emerged as a
dominant approach for aligning LLM outputs with human preferences. Inspired by
the success of RLHF, we study the performance of multiple algorithms that learn
from feedback (Expert Iteration, Proximal Policy Optimization (PPO),
Return-Conditioned RL) on improving LLM reasoning capabilities. We investigate
both sparse and dense rewards provided to the LLM both heuristically and via a
learned reward model. We additionally start from multiple model sizes and
initializations both with and without supervised fine-tuning (SFT)
data. Overall, we find all algorithms perform comparably, with Expert Iteration
performing best in most cases. Surprisingly, we find the sample complexity of
Expert Iteration is similar to that of PPO, requiring at most on the order of
10^6 samples to converge from a pretrained checkpoint. We investigate why
this is the case, concluding that during RL training models fail to explore
significantly beyond solutions already produced by SFT models. Additionally, we
discuss a trade off between maj@1 and pass@96 metric performance during SFT
training and how conversely RL training improves both simultaneously. We then
conclude by discussing the implications of our findings for RLHF and the future
role of RL in LLM fine-tuning.