ChatPaper.aiChatPaper

事前学習、中間学習、強化学習の相互作用による推論言語モデルの検討

On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

December 8, 2025
著者: Charlie Zhang, Graham Neubig, Xiang Yue
cs.AI

要旨

最近の強化学習(RL)技術は言語モデルの推論能力に目覚ましい改善をもたらしているが、ポストトレーニングが事前学習で獲得した能力を真に拡張するのかは不明確である。中心的な課題は、現代のトレーニングパイプラインにおける制御の欠如にある。大規模な事前学習コーパスは不透明であり、中間トレーニングは十分に検証されず、RL目標は未知の事前知識と複雑に相互作用する。この曖昧さを解決するため、我々は事前学習・中間トレーニング・RLベースのポストトレーニングの因果的寄与を分離する完全に制御された実験フレームワークを開発した。本手法では、明示的な原子操作、構文解析可能な段階的推論トレース、トレーニング分布の系統的操作を備えた合成推論タスクを採用する。モデルを2軸で評価する:より複雑な構成への外挿的汎化と、表面的文脈を跨ぐ文脈的汎化である。このフレームワークを用いて、RLの有効性に関する対立する見解を統合する。以下のことを示す:1)RLが真の能力向上(pass@128)を生むのは、事前学習に十分な余白があり、RLデータがモデルの能力限界(手の届く困難な境界タスク)を標的とする場合のみである。2)文脈的汎化には最小限かつ十分な事前学習曝露が必要で、その後RLは確実に転移できる。3)中間トレーニングはRLのみと比較し、固定計算量下で性能を大幅に向上させ、トレーニングパイプラインにおける中心的な役割(未開拓であるが)を実証する。4)プロセスレベル報酬は報酬ハッキングを減らし推論の忠実性を改善する。これらの結果は、事前学習・中間トレーニング・RLの相互作用を明確にし、推論LMトレーニング戦略の理解と改善の基盤を提供する。
English
Recent reinforcement learning (RL) techniques have yielded impressive reasoning improvements in language models, yet it remains unclear whether post-training truly extends a model's reasoning ability beyond what it acquires during pre-training. A central challenge is the lack of control in modern training pipelines: large-scale pre-training corpora are opaque, mid-training is often underexamined, and RL objectives interact with unknown prior knowledge in complex ways. To resolve this ambiguity, we develop a fully controlled experimental framework that isolates the causal contributions of pre-training, mid-training, and RL-based post-training. Our approach employs synthetic reasoning tasks with explicit atomic operations, parseable step-by-step reasoning traces, and systematic manipulation of training distributions. We evaluate models along two axes: extrapolative generalization to more complex compositions and contextual generalization across surface contexts. Using this framework, we reconcile competing views on RL's effectiveness. We show that: 1) RL produces true capability gains (pass@128) only when pre-training leaves sufficient headroom and when RL data target the model's edge of competence, tasks at the boundary that are difficult but not yet out of reach. 2) Contextual generalization requires minimal yet sufficient pre-training exposure, after which RL can reliably transfer. 3) Mid-training significantly enhances performance under fixed compute compared with RL only, demonstrating its central but underexplored role in training pipelines. 4) Process-level rewards reduce reward hacking and improve reasoning fidelity. Together, these results clarify the interplay between pre-training, mid-training, and RL, offering a foundation for understanding and improving reasoning LM training strategies.
PDF202December 10, 2025