ChatPaper.aiChatPaper

ポストトレーニングにおける教師ありファインチューニングと強化学習の非分離性について

On the Non-decoupling of Supervised Fine-tuning and Reinforcement Learning in Post-training

January 12, 2026
著者: Xueyan Niu, Bo Bai, Wei Han, Weixi Zhang
cs.AI

要旨

大規模言語モデルの学習後調整では、教師ありファインチューニング(SFT)と強化学習(RL)を交互に実施するのが一般的である。これら二つの手法は異なる目的を持つ:SFTはモデル出力と専門家応答間の交差エントロピー損失を最小化するのに対し、RLは人間の選好やルールベース検証器から得られる報酬信号を最大化する。現代の推論モデルは、SFTとRL訓練を交互に行う手法を広く採用している。しかし、両者が分離可能かどうかについての理論的説明は存在しない。我々は、いずれの順序でも分離が不可能であることを証明する:(1)SFT→RL結合:SFT最適性の下でRLはSFT損失を増加させ、(2)RL→SFT結合:SFTはRLによって達成された報酬を低下させる。Qwen3-0.6Bでの実験は予測された性能劣化を確認し、学習後調整においてSFTとRLを事前の性能を損なわずに分離できないことを実証する。
English
Post-training of large language models routinely interleaves supervised fine-tuning (SFT) with reinforcement learning (RL). These two methods have different objectives: SFT minimizes the cross-entropy loss between model outputs and expert responses, while RL maximizes reward signals derived from human preferences or rule-based verifiers. Modern reasoning models have widely adopted the practice of alternating SFT and RL training. However, there is no theoretical account of whether they can be decoupled. We prove that decoupling is impossible in either order: (1) SFT-then-RL coupling: RL increases SFT loss under SFT optimality and (2) RL-then-SFT coupling: SFT lowers the reward achieved by RL. Experiments on Qwen3-0.6B confirm the predicted degradation, verifying that SFT and RL cannot be separated without loss of prior performance in the post-training
PDF22January 31, 2026