強化学習事前学習Reinforcement Pre-Training
本研究では、大規模言語モデルと強化学習(RL)のための新しいスケーリングパラダイムとして、Reinforcement Pre-Training(RPT)を提案します。具体的には、次のトークン予測をRLを用いて訓練する推論タスクとして再定義し、与えられたコンテキストに対して次のトークンを正しく予測することで検証可能な報酬を受け取るようにします。RPTは、ドメイン固有の注釈付き回答に依存するのではなく、大量のテキストデータを汎用的なRLに活用するスケーラブルな方法を提供します。次のトークン推論能力を促進することで、RPTは次のトークンを予測する言語モデリングの精度を大幅に向上させます。さらに、RPTはさらなる強化学習のファインチューニングのための強力な事前学習基盤を提供します。スケーリング曲線は、訓練計算量を増やすことで次のトークン予測精度が一貫して向上することを示しています。これらの結果から、RPTは言語モデルの事前学習を進めるための効果的で有望なスケーリングパラダイムとして位置づけられます。