Переосмысление обобщения в SFT-рационализации: условный анализ оптимизации, данных и возможностей модели
Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability
April 8, 2026
Авторы: Qihan Ren, Peng Wang, Ruikun Cai, Shuai Shao, Dadi Guo, Yuejin Xie, Yafu Li, Quanshi Zhang, Xia Hu, Jing Shao, Dongrui Liu
cs.AI
Аннотация
Распространенное представление о посттренировке больших языковых моделей (LLM) утверждает, что контролируемое дообучение (SFT) приводит к запоминанию, а обучение с подкреплением (RL) — к обобщению. Мы пересматриваем этот тезис применительно к SFT для задач рассуждений с длинными цепочками мыслей (CoT) и обнаруживаем, что междоменное обобщение не отсутствует, а является условным, совместно формируемым динамикой оптимизации, данными обучения и способностями базовой модели. Некоторые из зафиксированных неудач являются артефактами недостаточной оптимизации: междоменная производительность сначала ухудшается, а затем восстанавливается и улучшается при продолжении обучения (схема «спад-восстановление»), поэтому контрольные точки на ранних этапах обучения могут недооценивать потенциал обобщения. И качество, и структура данных имеют значение: низкокачественные решения повсеместно вредят обобщению, тогда как верифицированные длинные CoT-трассы обеспечивают стабильный междоменный выигрыш. Способность модели крайне важна: более мощные модели усваивают переносимые процедурные шаблоны (например, обратный ход) даже из игрушечной арифметической игры, тогда как более слабые имитируют лишь поверхностную многословность. Однако это обобщение асимметрично: способность к рассуждению улучшается, а безопасность ухудшается, что смещает вопрос с того, *обобщает ли* SFT для рассуждений, к тому, *при каких условиях* и *какой ценой* это происходит.
English
A prevailing narrative in LLM post-training holds that supervised finetuning (SFT) memorizes while reinforcement learning (RL) generalizes. We revisit this claim for reasoning SFT with long chain-of-thought (CoT) supervision and find that cross-domain generalization is not absent but conditional, jointly shaped by optimization dynamics, training data, and base-model capability. Some reported failures are under-optimization artifacts: cross-domain performance first degrades before recovering and improving with extended training (a dip-and-recovery pattern), so shorttraining checkpoints can underestimate generalization. Data quality and structure both matter: low-quality solutions broadly hurt generalization,while verified long-CoT traces yield consistent cross-domain gains. Model capability is essential: stronger models internalize transferable procedural patterns (e.g., backtracking) even from a toy arithmetic game, while weaker ones imitate surface verbosity. This generalization is asymmetric, however: reasoning improves while safety degrades, reframing the question from whether reasoning SFT generalizes to under what conditions and at what cost.