Über die Nicht-Entkopplung von überwachtem Feinabstimmen und Reinforcement Learning im Nachschulungsprozess
On the Non-decoupling of Supervised Fine-tuning and Reinforcement Learning in Post-training
January 12, 2026
papers.authors: Xueyan Niu, Bo Bai, Wei Han, Weixi Zhang
cs.AI
papers.abstract
Das Post-Training großer Sprachmodelle verknüpft routinemäßig supervidiertes Finetuning (SFT) mit Reinforcement Learning (RL). Diese beiden Methoden verfolgen unterschiedliche Ziele: SFT minimiert den Kreuzentropieverlust zwischen Modellausgaben und Expert:innenantworten, während RL Belohnungssignale maximiert, die aus menschlichen Präferenzen oder regelbasierten Verifikationssystemen abgeleitet werden. Moderne Reasoning-Modelle haben die Praxis der abwechselnden SFT- und RL-Trainingsphasen weitgehend übernommen. Es existiert jedoch keine theoretische Grundlage dafür, ob diese Methoden entkoppelt werden können. Wir beweisen, dass eine Entkopplung in beiden Reihenfolgen unmöglich ist: (1) SFT-then-RL-Kopplung: RL erhöht den SFT-Verlust unter SFT-Optimalität und (2) RL-then-SFT-Kopplung: SFT verringert die durch RL erreichte Belohnung. Experimente mit Qwen3-0.6B bestätigen den vorhergesagten Leistungsabfall und verifizieren, dass SFT und RL nicht ohne Verlust vorheriger Leistungsfähigkeit im Post-Training getrennt werden können.
English
Post-training of large language models routinely interleaves supervised fine-tuning (SFT) with reinforcement learning (RL). These two methods have different objectives: SFT minimizes the cross-entropy loss between model outputs and expert responses, while RL maximizes reward signals derived from human preferences or rule-based verifiers. Modern reasoning models have widely adopted the practice of alternating SFT and RL training. However, there is no theoretical account of whether they can be decoupled. We prove that decoupling is impossible in either order: (1) SFT-then-RL coupling: RL increases SFT loss under SFT optimality and (2) RL-then-SFT coupling: SFT lowers the reward achieved by RL. Experiments on Qwen3-0.6B confirm the predicted degradation, verifying that SFT and RL cannot be separated without loss of prior performance in the post-training