ChatPaper.aiChatPaper

大規模言語モデルに強化学習を用いて推論能力を教える

Teaching Large Language Models to Reason with Reinforcement Learning

March 7, 2024
著者: Alex Havrilla, Yuqing Du, Sharath Chandra Raparthy, Christoforos Nalmpantis, Jane Dwivedi-Yu, Maksym Zhuravinskyi, Eric Hambro, Sainbayar Sukhbaatar, Roberta Raileanu
cs.AI

要旨

人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)の出力を人間の選好に合わせるための主要なアプローチとして登場しました。RLHFの成功に触発され、我々は複数のフィードバック学習アルゴリズム(Expert Iteration、近接方策最適化(PPO)、リターン条件付き強化学習)がLLMの推論能力を向上させる性能を調査しました。我々は、LLMに提供されるスパースおよび密な報酬を、ヒューリスティックに、また学習済み報酬モデルを通じて検討しました。さらに、教師ありファインチューニング(SFT)データの有無にかかわらず、複数のモデルサイズと初期化から開始しました。全体として、すべてのアルゴリズムが同等の性能を示し、ほとんどの場合でExpert Iterationが最良の結果を示しました。驚くべきことに、Expert Iterationのサンプル複雑性はPPOと類似しており、事前学習済みチェックポイントから収束するために最大で10^6オーダーのサンプルを必要とすることがわかりました。我々はこれがなぜ起こるのかを調査し、RLトレーニング中にモデルがSFTモデルによって既に生成された解を大幅に超えて探索しないためであると結論付けました。さらに、SFTトレーニング中のmaj@1とpass@96メトリックの性能のトレードオフについて議論し、逆にRLトレーニングが両方を同時に改善する方法についても考察しました。最後に、我々の知見がRLHFおよびLLMファインチューニングにおけるRLの将来の役割に与える影響について議論します。
English
Reinforcement Learning from Human Feedback (RLHF) has emerged as a dominant approach for aligning LLM outputs with human preferences. Inspired by the success of RLHF, we study the performance of multiple algorithms that learn from feedback (Expert Iteration, Proximal Policy Optimization (PPO), Return-Conditioned RL) on improving LLM reasoning capabilities. We investigate both sparse and dense rewards provided to the LLM both heuristically and via a learned reward model. We additionally start from multiple model sizes and initializations both with and without supervised fine-tuning (SFT) data. Overall, we find all algorithms perform comparably, with Expert Iteration performing best in most cases. Surprisingly, we find the sample complexity of Expert Iteration is similar to that of PPO, requiring at most on the order of 10^6 samples to converge from a pretrained checkpoint. We investigate why this is the case, concluding that during RL training models fail to explore significantly beyond solutions already produced by SFT models. Additionally, we discuss a trade off between maj@1 and pass@96 metric performance during SFT training and how conversely RL training improves both simultaneously. We then conclude by discussing the implications of our findings for RLHF and the future role of RL in LLM fine-tuning.
PDF512December 15, 2024