Wie feintunt man ein Reasoning-Modell? Ein Teacher-Student-Kooperationsframework zur Synthese von studentenkonsistenten SFT-Daten

Zusammenfassung

Eine weit verbreitete Strategie zur Modellverbesserung ist die Verwendung synthetischer Daten, die von einem stärkeren Modell für supervised Fine-Tuning (SFT) erzeugt werden. Für aufstrebende Reasoning-Modelle wie Qwen3-8B führt dieser Ansatz jedoch häufig nicht zu einer Verbesserung der Reasoning-Fähigkeiten und kann sogar zu einem erheblichen Leistungsabfall führen. In dieser Arbeit identifizieren wir eine erhebliche stilistische Divergenz zwischen den vom Teacher-Modell generierten Daten und der Verteilung des Student-Modells als Hauptfaktor, der das SFT beeinträchtigt. Um diese Lücke zu schließen, schlagen wir ein Teacher-Student Cooperation Data Synthesis Framework (TESSY) vor, bei dem Teacher- und Student-Modelle verschachtelt werden, um abwechselnd Stil- und Nicht-Stil-Tokens zu generieren. Dadurch erzeugt TESSY synthetische Sequenzen, die die fortgeschrittenen Reasoning-Fähigkeiten des Teachers erben und gleichzeitig die stilistische Konsistenz mit der Verteilung des Students bewahren. In Experimenten zur Code-Generierung mit GPT-OSS-120B als Teacher führte das Fine-Tuning von Qwen3-8B auf teacher-generierten Daten zu Leistungseinbußen von 3,25 % auf LiveCodeBench-Pro bzw. 10,02 % auf OJBench, während TESSY Verbesserungen von 11,25 % bzw. 6,68 % erzielte.

English

A widely adopted strategy for model enhancement is to use synthetic data generated by a stronger model for supervised fine-tuning (SFT). However, for emerging reasoning models like Qwen3-8B, this approach often fails to improve reasoning capabilities and can even lead to a substantial drop in performance. In this work, we identify substantial stylistic divergence between teacher generated data and the distribution of student as a major factor impacting SFT. To bridge this gap, we propose a Teacher-Student Cooperation Data Synthesis framework (TESSY), which interleaves teacher and student models to alternately generate style and non-style tokens. Consequently, TESSY produces synthetic sequences that inherit the advanced reasoning capabilities of the teacher while maintaining stylistic consistency with the distribution of the student. In experiments on code generation using GPT-OSS-120B as the teacher, fine-tuning Qwen3-8B on teacher-generated data leads to performance drops of 3.25% on LiveCodeBench-Pro and 10.02% on OJBench, whereas TESSY achieves improvements of 11.25% and 6.68%.

Wie feintunt man ein Reasoning-Modell? Ein Teacher-Student-Kooperationsframework zur Synthese von studentenkonsistenten SFT-Daten

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

Zusammenfassung

Support