О неразделимости контролируемой тонкой настройки и обучения с подкреплением в посттренинге
On the Non-decoupling of Supervised Fine-tuning and Reinforcement Learning in Post-training
January 12, 2026
Авторы: Xueyan Niu, Bo Bai, Wei Han, Weixi Zhang
cs.AI
Аннотация
Послетренировочная доработка больших языковых моделей обычно чередует контролируемую тонкую настройку (SFT) с обучением с подкреплением (RL). Эти два метода имеют разные цели: SFT минимизирует перекрестную энтропию между выходами модели и ответами экспертов, в то время как RL максимизирует сигналы вознаграждения, полученные из человеческих предпочтений или правил, основанных на верификаторах. Современные модели рассуждений широко adopted практику чередования обучения SFT и RL. Однако теоретического обоснования того, можно ли их разделить, не существует. Мы доказываем, что разделение невозможно в любом порядке: (1) Связка SFT-then-RL: RL увеличивает потери SFT при оптимальности SFT и (2) Связка RL-then-SFT: SFT снижает вознаграждение, достигнутое RL. Эксперименты на Qwen3-0.6B подтверждают прогнозируемую деградацию, доказывая, что SFT и RL нельзя разделить без потери предыдущей производительности на этапе посттренировки.
English
Post-training of large language models routinely interleaves supervised fine-tuning (SFT) with reinforcement learning (RL). These two methods have different objectives: SFT minimizes the cross-entropy loss between model outputs and expert responses, while RL maximizes reward signals derived from human preferences or rule-based verifiers. Modern reasoning models have widely adopted the practice of alternating SFT and RL training. However, there is no theoretical account of whether they can be decoupled. We prove that decoupling is impossible in either order: (1) SFT-then-RL coupling: RL increases SFT loss under SFT optimality and (2) RL-then-SFT coupling: SFT lowers the reward achieved by RL. Experiments on Qwen3-0.6B confirm the predicted degradation, verifying that SFT and RL cannot be separated without loss of prior performance in the post-training