사후 학습에서 지도 미세 조정과 강화 학습의 비분리성에 관한 연구
On the Non-decoupling of Supervised Fine-tuning and Reinforcement Learning in Post-training
January 12, 2026
저자: Xueyan Niu, Bo Bai, Wei Han, Weixi Zhang
cs.AI
초록
대규모 언어 모델의 사후 훈련은 일반적으로 지도 미세 조정(SFT)과 강화 학습(RL)을 번갈아 가며 수행됩니다. 이 두 방법은 서로 다른 목적을 가지고 있습니다: SFT는 모델 출력과 전문가 응답 간의 교차 엔트로피 손실을 최소화하는 반면, RL은 인간 선호도나 규칙 기반 검증기에서 도출된 보상 신호를 최대화합니다. 현대 추론 모델들은 SFT와 RL 훈련을 교대로 적용하는 방식을 널리 채택하고 있습니다. 그러나 이 둘을 분리할 수 있는지에 대한 이론적 설명은 부족했습니다. 우리는 두 순서 모두에서 분리가 불가능함을 증명합니다: (1) SFT-후-RL 결합: RL은 SFT 최적성 하에서 SFT 손실을 증가시키며, (2) RL-후-SFT 결합: SFT는 RL이 달성한 보상을 낮춥니다. Qwen3-0.6B에서 수행한 실험은 예측된 성능 저하를 확인하며, 사후 훈련에서 이전 성능의 손실 없이 SFT와 RL을 분리할 수 없음을 검증합니다.
English
Post-training of large language models routinely interleaves supervised fine-tuning (SFT) with reinforcement learning (RL). These two methods have different objectives: SFT minimizes the cross-entropy loss between model outputs and expert responses, while RL maximizes reward signals derived from human preferences or rule-based verifiers. Modern reasoning models have widely adopted the practice of alternating SFT and RL training. However, there is no theoretical account of whether they can be decoupled. We prove that decoupling is impossible in either order: (1) SFT-then-RL coupling: RL increases SFT loss under SFT optimality and (2) RL-then-SFT coupling: SFT lowers the reward achieved by RL. Experiments on Qwen3-0.6B confirm the predicted degradation, verifying that SFT and RL cannot be separated without loss of prior performance in the post-training