사고 모델을 미세 조정하는 방법: 학생 일관성 SFT 데이터를 합성하기 위한 교사-학생 협력 프레임워크

초록

모델 성능 향상을 위해 널리 사용되는 전략 중 하나는 더 강력한 모델이 생성한 합성 데이터를 지도 미세 조정(SFT)에 활용하는 것입니다. 그러나 Qwen3-8B와 같은 새로운 추론 모델의 경우, 이 접근법은 추론 능력 향상에 실패하고 오히려 성능이 크게 하락하는 경우가 많습니다. 본 연구에서는 교사 모델이 생성한 데이터와 학습자 모델의 분포 사이에 존재하는 상당한 스타일 차이가 SFT 성능에 영향을 미치는 주요 요인임을 규명합니다. 이러한 차이를 해소하기 위해 우리는 교사 모델과 학습자 모델을 교대로 활용하여 스타일 토큰과 비스타일 토큰을 번갈아 생성하는 교사-학습자 협력 데이터 합성 프레임워크(TESSY)를 제안합니다. 그 결과, TESSY는 교사 모델의 고급 추론 능력을 계승하면서도 학습자 모델의 분포와 스타일 일관성을 유지하는 합성 시퀀스를 생성합니다. GPT-OSS-120B를 교사 모델로 사용한 코드 생성 실험에서, 교사 생성 데이터로 Qwen3-8B를 미세 조정할 경우 LiveCodeBench-Pro에서 3.25%, OJBench에서 10.02%의 성능 하락이 발생했으나, TESSY를 적용하면 각각 11.25%, 6.68%의 성능 향상을 달성했습니다.

English

A widely adopted strategy for model enhancement is to use synthetic data generated by a stronger model for supervised fine-tuning (SFT). However, for emerging reasoning models like Qwen3-8B, this approach often fails to improve reasoning capabilities and can even lead to a substantial drop in performance. In this work, we identify substantial stylistic divergence between teacher generated data and the distribution of student as a major factor impacting SFT. To bridge this gap, we propose a Teacher-Student Cooperation Data Synthesis framework (TESSY), which interleaves teacher and student models to alternately generate style and non-style tokens. Consequently, TESSY produces synthetic sequences that inherit the advanced reasoning capabilities of the teacher while maintaining stylistic consistency with the distribution of the student. In experiments on code generation using GPT-OSS-120B as the teacher, fine-tuning Qwen3-8B on teacher-generated data leads to performance drops of 3.25% on LiveCodeBench-Pro and 10.02% on OJBench, whereas TESSY achieves improvements of 11.25% and 6.68%.

사고 모델을 미세 조정하는 방법: 학생 일관성 SFT 데이터를 합성하기 위한 교사-학생 협력 프레임워크

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

초록

Support