強化学習は、ベースモデルを超えたLLMの推論能力を真に促進するのか?Does Reinforcement Learning Really Incentivize Reasoning Capacity in
LLMs Beyond the Base Model?
検証可能な報酬を用いた強化学習(RLVR)は最近、特に数学やプログラミングタスクにおいて、大規模言語モデル(LLM)の推論能力を向上させることに顕著な成功を収めています。RLVRはLLMが継続的に自己改善し、対応するベースモデルの能力を超える新たな推論能力を獲得できると広く信じられています。しかし、本研究ではこの仮定を批判的に再検証し、大きなk値でのpass@kメトリックを測定することで、様々なモデルファミリーとベンチマークにわたるモデルの推論能力の限界を探ります。驚くべきことに、RLは実際には根本的に新しい推論パターンを引き出しません。RLで訓練されたモデルは小さいk値(例:k=1)ではベースモデルを上回りますが、大きなk値ではベースモデルがRLモデルと同等またはそれ以上のpass@kスコアを達成できます。RLで訓練されたモデルが生成する推論パスは、ベースモデルのサンプリング分布に既に含まれており、RLモデルに現れる推論能力のほとんどはベースモデルによって既に獲得されていることが示唆されます。さらに分析すると、RL訓練は報酬を得る可能性が高いパスに向けてモデルの出力分布を偏らせることで性能を向上させ、正しい応答をより効率的にサンプリングします。しかし、これによりベースモデルと比較して推論能力の限界が狭まります。RLVRで訓練された視覚推論タスクでも同様の結果が観察されます。さらに、蒸留はRLVRとは異なり、モデルに真に新しい知識を導入できることが分かります。これらの発見は、LLMの推論能力を進歩させる上でのRLVRの重要な限界を強調し、推論LLMにおけるRL訓練の影響とより良いパラダイムの必要性を根本的に再考することを求めています。プロジェクトページ: https://limit-of-RLVR.github.io