強化学習を用いた言語モデルの自己修正トレーニングTraining Language Models to Self-Correct via Reinforcement Learning
自己訂正は大規模言語モデル(LLMs)にとって非常に望ましい機能ですが、現代のLLMsでは効果がほとんどないことが一貫してわかっています。自己訂正のトレーニングの既存のアプローチは、複数のモデルが必要であるか、より能力の高いモデルや他の形式の監督を必要とします。このため、我々は、完全に自己生成されたデータを使用してLLMの自己訂正能力を大幅に向上させる、マルチターンオンライン強化学習(RL)アプローチであるSCoReを開発します。SCoReを構築するために、まず、オフラインモデル生成の訂正トレースに対する監督微調整(SFT)のバリアントが自己訂正行動を植え付けるのに不十分であることを示します。特に、SFTを介したトレーニングは、トレーニングデータとモデル自体の応答との分布の不一致に苦しんでいるか、しばしばテスト時に効果的でない特定の訂正行動モードだけを暗黙的に好むことが観察されます。SCoReは、モデル自体が生成した自己訂正トレースの分布に従ってトレーニングを行い、適切な正則化を使用して学習プロセスを導き、単に特定のプロンプトに対する高報酬応答を適合させるのではなく、テスト時に効果的な自己訂正戦略を学習するようにします。この正則化は、崩壊しにくいポリシー初期化を生成するためにベースモデルで最初のRLフェーズを実行し、トレーニング中に自己訂正を増幅するための報酬ボーナスを使用することを規定しています。Gemini 1.0 Proおよび1.5 Flashモデルに適用した結果、SCoReは、MATHおよびHumanEvalベンチマークでそれぞれベースモデルの自己訂正を15.6%および9.1%向上させ、最先端の自己訂正性能を達成します。