大規模言語モデルにおける推論のための強化学習:1つの訓練例を用いてReinforcement Learning for Reasoning in Large Language Models with One
Training Example
我々は、1つの訓練例を用いた検証可能な報酬による強化学習(1-shot RLVR)が、大規模言語モデル(LLMs)の数学的推論能力を向上させるのに有効であることを示す。RLVRをベースモデルであるQwen2.5-Math-1.5Bに適用し、MATH500におけるモデルの性能を36.0%から73.6%に向上させ、6つの一般的な数学的推論ベンチマークにおける平均性能を17.6%から35.7%に改善する単一の例を特定した。この結果は、前述の例を含む1.2kのDeepScaleRサブセット(MATH500: 73.6%, 平均: 35.9%)を用いて得られた性能と一致する。同様の大幅な改善は、様々なモデル(Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B)、RLアルゴリズム(GRPOおよびPPO)、および異なる数学的例(多くの場合、単一の訓練例として使用された際にMATH500で約30%以上の改善をもたらす)においても観察された。さらに、1-shot RLVRの過程で、ドメイン間の汎化、自己反省の頻度の増加、訓練精度が飽和した後も持続するテスト性能の向上(我々が「飽和後汎化」と呼ぶ現象)といった興味深い現象を特定した。また、1-shot RLVRの有効性が主にポリシー勾配損失に起因することを確認し、「グロッキング」現象とは区別されることを示した。さらに、1-shot RLVRの訓練において、探索を促進すること(例えば、適切な係数でエントロピー損失を追加するなど)の重要性を示した。副次的な発見として、結果報酬なしでエントロピー損失のみを適用することで、Qwen2.5-Math-1.5BのMATH500における性能が27.4%向上することを観察した。これらの知見は、RLVRのデータ効率に関する将来の研究を刺激し、RLVRの最近の進展とその基盤となるメカニズムの再検討を促すものである。我々のコード、モデル、データはhttps://github.com/ypwang61/One-Shot-RLVRでオープンソースとして公開されている。