強化学習が学べないこと:最難問に対するインターリーブ型オンラインファインチューニング
Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions
June 9, 2025
著者: Lu Ma, Hao Liang, Meiyi Qiang, Lexiang Tang, Xiaochen Ma, Zhen Hao Wong, Junbo Niu, Chengyu Shen, Runming He, Bin Cui, Wentao Zhang
cs.AI
要旨
大規模言語モデル(LLM)の推論能力に関する最近の進展により、計画立案や自己反省といった高度な振る舞いが強化学習(RL)を通じて発現することが示されてきた。しかし、これらの成功にもかかわらず、現状のRLはベースモデルの限界を超える能力を誘発するには不十分であり、主にモデルの既存の知識に基づいて最適化されるため、新しい情報の獲得を促進するものではない。この制約を克服するため、我々は教師ありファインチューニング(SFT)を活用し、RLでは学習できない新しい知識や推論パターンを高品質なデモンストレーションデータを用いて取り込むことを可能にした。LLM推論におけるRLとSFTのトレーニングダイナミクスを分析した結果、RLはモデルの元々の能力範囲内の質問に対する性能の維持と向上に優れている一方、SFTはモデルの現在の範囲を超える質問に対する進歩を可能にするのに効果的であることがわかった。RLとSFTの補完的な強みに着想を得て、我々は新しいトレーニング手法であるReLIFT(Reinforcement Learning Interleaved with Online Fine-Tuning)を提案する。ReLIFTでは、モデルは主にRLを用いてトレーニングされるが、難しい質問に遭遇した際には高品質な解決策を収集してファインチューニングを行い、RLとファインチューニングを交互に行うことでモデルの推論能力を向上させる。ReLIFTは、他のゼロRLモデルと比較して、5つの競技レベルベンチマークと1つの分布外ベンチマークにおいて平均+5.2ポイント以上の改善を達成した。さらに、ReLIFTは詳細なデモンストレーションデータのわずか13%を使用しながら、RLとSFTの両方を上回る性能を示し、そのスケーラビリティを強調している。これらの結果は、ReLIFTがRLの根本的な制約を克服し、その大きな可能性を示す説得力のある証拠を提供する。
English
Recent advances in large language model (LLM) reasoning have shown that
sophisticated behaviors such as planning and self-reflection can emerge through
reinforcement learning (RL). However, despite these successes, RL in its
current form remains insufficient to induce capabilities that exceed the
limitations of the base model, as it is primarily optimized based on existing
knowledge of the model rather than facilitating the acquisition of new
information. To address this limitation, we employ supervised fine-tuning (SFT)
to learn what RL cannot, which enables the incorporation of new knowledge and
reasoning patterns by leveraging high-quality demonstration data. We analyze
the training dynamics of RL and SFT for LLM reasoning and find that RL excels
at maintaining and improving performance on questions within the model's
original capabilities, while SFT is more effective at enabling progress on
questions beyond the current scope of the model. Motivated by the complementary
strengths of RL and SFT, we introduce a novel training approach,
ReLIFT (Reinforcement Learning Interleaved
with Online Fine-Tuning). In ReLIFT, the model is primarily
trained using RL, but when it encounters challenging questions, high-quality
solutions are collected for fine-tuning, and the training process alternates
between RL and fine-tuning to enhance the model's reasoning abilities. ReLIFT
achieves an average improvement of over +5.2 points across five
competition-level benchmarks and one out-of-distribution benchmark compared to
other zero-RL models. Furthermore, we demonstrate that ReLIFT outperforms both
RL and SFT while using only 13\% of the detailed demonstration data,
highlighting its scalability. These results provide compelling evidence that
ReLIFT overcomes the fundamental limitations of RL and underscores the
significant potential.