大規模言語モデルのポスト学習における専門家軌跡の活用の再考
Rethinking Expert Trajectory Utilization in LLM Post-training
December 12, 2025
著者: Bowen Ding, Yuhan Chen, Jiayang Lv, Jiyao Yuan, Qi Zhu, Shuangshuang Tian, Dantong Zhu, Futing Wang, Heyuan Deng, Fei Mi, Lifeng Shang, Tao Lin
cs.AI
要旨
効果的な学習後調整には教師ありファインチューニング(SFT)と強化学習(RL)の統合が有効であるが、専門家の軌跡を活用する最適なメカニズムは未解決のままであった。本研究では、この状況を理論的に基礎付けるため、性能を基礎的なSFT性能とそれに続くRL可塑性に分解する「塑性-天井フレームワーク」を提案する。大規模なベンチマークを通じて、SFTを先行させRLを後続させる「逐次SFT-then-RL」パイプラインが、同期型アプローチの安定性不足を克服する優れた標準であることを確立する。さらに、以下の精密なスケーリング指針を導出する:(1)SFT安定期または軽度過学習亜期でRLに移行することで、RL可塑性を損なうことなく基礎的SFT性能を確保し、最終的な性能天井を最大化できる;(2)SFT-then-RLスケーリングにおける「少ないほど良い」説を否定し、データ規模が学習後調整の主要な潜在能力を決定し、軌跡の難易度が性能乗数として機能することを実証する;(3)SFT検証損失の最小値が、最終性能天井を最大化する専門家軌跡を選択するための堅牢な指標となることを同定する。本知見は、専門家軌跡から抽出される価値を最大化するための実践的な指針を提供する。
English
While effective post-training integrates Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL), the optimal mechanism for utilizing expert trajectories remains unresolved. We propose the Plasticity-Ceiling Framework to theoretically ground this landscape, decomposing performance into foundational SFT performance and the subsequent RL plasticity. Through extensive benchmarking, we establish the Sequential SFT-then-RL pipeline as the superior standard, overcoming the stability deficits of synchronized approaches. Furthermore, we derive precise scaling guidelines: (1) Transitioning to RL at the SFT Stable or Mild Overfitting Sub-phase maximizes the final ceiling by securing foundational SFT performance without compromising RL plasticity; (2) Refuting ``Less is More'' in the context of SFT-then-RL scaling, we demonstrate that Data Scale determines the primary post-training potential, while Trajectory Difficulty acts as a performance multiplier; and (3) Identifying that the Minimum SFT Validation Loss serves as a robust indicator for selecting the expert trajectories that maximize the final performance ceiling. Our findings provide actionable guidelines for maximizing the value extracted from expert trajectories.