일반화 재고: 추론 SFT에서 최적화, 데이터, 모델 능력에 대한 조건부 분석
Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability
April 8, 2026
저자: Qihan Ren, Peng Wang, Ruikun Cai, Shuai Shao, Dadi Guo, Yuejin Xie, Yafu Li, Quanshi Zhang, Xia Hu, Jing Shao, Dongrui Liu
cs.AI
초록
LLM 후속 훈련에 관한 일반적인 통념은 지도 미세조정(SFT)이 암기 위주인 반면 강화학습(RL)은 일반화를 촉진한다는 것입니다. 본 연구는 긴 사고 연쇄(CoT) 지도를 활용한 추론 SFT에 대해 이 주장을 재검토한 결과, 교차 영역 일반화가 부재하는 것이 아니라 최적화 동역학, 훈련 데이터, 기본 모델 능력에 의해 공동으로 결정되는 조건적 현상임을 발견했습니다. 일부 보고된 실패 사례는 최적화 부족으로 인한 인공적 현상입니다: 교차 영역 성능은 훈련이 확장됨에 따라 초기에는 저하되었다가 회복 및 개선되는(하강 후 회복 패턴) 양상을 보이므로, 짧은 훈련 체크포인트는 일반화 능력을 과소평가할 수 있습니다. 데이터 품질과 구조 모두 중요합니다: 낮은 품질의 해결책은 일반화에 전반적으로 악영향을 미치는 반면, 검증된 긴 CoT 추적은 일관된 교차 영역 성능 향상을 가져옵니다. 모델 능력은 핵심적 요소입니다: 강력한 모델은 단순 산술 게임에서도 이전(backtracking)과 같은 전이 가능한 절차적 패턴을 내재화하는 반면, 취약한 모델은 표면적인 장황함만 모방합니다. 그러나 이러한 일반화는 비대칭적입니다: 추론 능력은 개선되는 동시에 안전성은 저하되어, '추론 SFT가 일반화하는가'라는 질문을 '어떤 조건에서, 어떤 대가를 치르며 일반화하는가'로 재정의하게 합니다.
English
A prevailing narrative in LLM post-training holds that supervised finetuning (SFT) memorizes while reinforcement learning (RL) generalizes. We revisit this claim for reasoning SFT with long chain-of-thought (CoT) supervision and find that cross-domain generalization is not absent but conditional, jointly shaped by optimization dynamics, training data, and base-model capability. Some reported failures are under-optimization artifacts: cross-domain performance first degrades before recovering and improving with extended training (a dip-and-recovery pattern), so shorttraining checkpoints can underestimate generalization. Data quality and structure both matter: low-quality solutions broadly hurt generalization,while verified long-CoT traces yield consistent cross-domain gains. Model capability is essential: stronger models internalize transferable procedural patterns (e.g., backtracking) even from a toy arithmetic game, while weaker ones imitate surface verbosity. This generalization is asymmetric, however: reasoning improves while safety degrades, reframing the question from whether reasoning SFT generalizes to under what conditions and at what cost.