ChatPaper.aiChatPaper

Sur le non-découplage du réglage fin supervisé et de l'apprentissage par renforcement dans l'après-entraînement

On the Non-decoupling of Supervised Fine-tuning and Reinforcement Learning in Post-training

January 12, 2026
papers.authors: Xueyan Niu, Bo Bai, Wei Han, Weixi Zhang
cs.AI

papers.abstract

L'entraînement postérieur des grands modèles de langage alterne systématiquement le réglage fin supervisé (SFT) avec l'apprentissage par renforcement (RL). Ces deux méthodes poursuivent des objectifs distincts : le SFT minimise la perte d'entropie croisée entre les sorties du modèle et les réponses d'expert, tandis que le RL maximise les signaux de récompense dérivés de préférences humaines ou de vérificateurs basés sur des règles. Les modèles de raisonnement modernes ont largement adopté la pratique consistant à alterner l'entraînement SFT et RL. Cependant, aucune explication théorique n'existe quant à la possibilité de les dissocier. Nous démontrons que la dissociation est impossible dans les deux ordres : (1) Couplage SFT-puis-RL : le RL augmente la perte SFT sous optimalité SFT et (2) Couplage RL-puis-SFT : le SFT réduit la récompense atteinte par le RL. Des expériences sur Qwen3-0.6B confirment la dégradation prédite, vérifiant que le SFT et le RL ne peuvent être séparés sans perte de performance antérieure dans l'entraînement postérieur.
English
Post-training of large language models routinely interleaves supervised fine-tuning (SFT) with reinforcement learning (RL). These two methods have different objectives: SFT minimizes the cross-entropy loss between model outputs and expert responses, while RL maximizes reward signals derived from human preferences or rule-based verifiers. Modern reasoning models have widely adopted the practice of alternating SFT and RL training. However, there is no theoretical account of whether they can be decoupled. We prove that decoupling is impossible in either order: (1) SFT-then-RL coupling: RL increases SFT loss under SFT optimality and (2) RL-then-SFT coupling: SFT lowers the reward achieved by RL. Experiments on Qwen3-0.6B confirm the predicted degradation, verifying that SFT and RL cannot be separated without loss of prior performance in the post-training
PDF22January 31, 2026