Come Ottimizzare un Modello di Ragionamento? Un Quadro di Cooperazione Docente-Studente per Sintetizzare Dati SFT Coerenti con lo Studente
How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data
March 23, 2026
Autori: Zixian Huang, Kaichen Yang, Xu Huang, Feiyang Hao, Qiming Ge, Bowen Li, He Du, Kai Chen, Qipeng Guo
cs.AI
Abstract
Una strategia ampiamente adottata per il miglioramento dei modelli consiste nell'utilizzare dati sintetici generati da un modello più potente per l'addestramento supervisionato fine (SFT). Tuttavia, per modelli emergenti di ragionamento come Qwen3-8B, questo approccio spesso non riesce a migliorare le capacità di ragionamento e può persino portare a un calo significativo delle prestazioni. In questo lavoro, identifichiamo una sostanziale divergenza stilistica tra i dati generati dal "teacher" e la distribuzione dello "student" come un fattore principale che influisce sull'SFT. Per colmare questa lacuna, proponiamo un framework di sintesi dati basato sulla cooperazione Teacher-Student (TESSY), che intercala i modelli teacher e student per generare alternativamente token stilistici e non stilistici. Di conseguenza, TESSY produce sequenze sintetiche che ereditano le avanzate capacità di ragionamento del teacher, mantenendo al contempo la coerenza stilistica con la distribuzione dello student. Negli esperimenti sulla generazione di codice utilizzando GPT-OSS-120B come teacher, l'addestramento fine di Qwen3-8B su dati generati dal teacher porta a cali di prestazioni del 3,25% su LiveCodeBench-Pro e del 10,02% su OJBench, mentre TESSY ottiene miglioramenti rispettivamente dell'11,25% e del 6,68%.
English
A widely adopted strategy for model enhancement is to use synthetic data generated by a stronger model for supervised fine-tuning (SFT). However, for emerging reasoning models like Qwen3-8B, this approach often fails to improve reasoning capabilities and can even lead to a substantial drop in performance. In this work, we identify substantial stylistic divergence between teacher generated data and the distribution of student as a major factor impacting SFT. To bridge this gap, we propose a Teacher-Student Cooperation Data Synthesis framework (TESSY), which interleaves teacher and student models to alternately generate style and non-style tokens. Consequently, TESSY produces synthetic sequences that inherit the advanced reasoning capabilities of the teacher while maintaining stylistic consistency with the distribution of the student. In experiments on code generation using GPT-OSS-120B as the teacher, fine-tuning Qwen3-8B on teacher-generated data leads to performance drops of 3.25% on LiveCodeBench-Pro and 10.02% on OJBench, whereas TESSY achieves improvements of 11.25% and 6.68%.