¿Cómo ajustar un modelo de razonamiento? Un marco de cooperación maestro-estudiante para sintetizar datos SFT consistentes con el estudiante

Resumen

Una estrategia ampliamente adoptada para mejorar modelos es utilizar datos sintéticos generados por un modelo más potente para el ajuste fino supervisado (SFT). Sin embargo, para modelos de razonamiento emergentes como Qwen3-8B, este enfoque a menudo no logra mejorar las capacidades de razonamiento e incluso puede provocar una caída sustancial en el rendimiento. En este trabajo, identificamos una divergencia estilística sustancial entre los datos generados por el profesor y la distribución del estudiante como un factor principal que afecta al SFT. Para salvar esta brecha, proponemos un marco de Síntesis de Datos por Cooperación Profesor-Estudiante (TESSY), que entrelaza los modelos del profesor y del estudiante para generar alternativamente tokens de estilo y tokens de no-estilo. En consecuencia, TESSY produce secuencias sintéticas que heredan las capacidades de razonamiento avanzadas del profesor mientras mantienen la coherencia estilística con la distribución del estudiante. En experimentos de generación de código usando GPT-OSS-120B como profesor, el ajuste fino de Qwen3-8B con datos generados por el profesor resultó en caídas de rendimiento del 3.25% en LiveCodeBench-Pro y del 10.02% en OJBench, mientras que TESSY logró mejoras del 11.25% y 6.68%, respectivamente.

English

A widely adopted strategy for model enhancement is to use synthetic data generated by a stronger model for supervised fine-tuning (SFT). However, for emerging reasoning models like Qwen3-8B, this approach often fails to improve reasoning capabilities and can even lead to a substantial drop in performance. In this work, we identify substantial stylistic divergence between teacher generated data and the distribution of student as a major factor impacting SFT. To bridge this gap, we propose a Teacher-Student Cooperation Data Synthesis framework (TESSY), which interleaves teacher and student models to alternately generate style and non-style tokens. Consequently, TESSY produces synthetic sequences that inherit the advanced reasoning capabilities of the teacher while maintaining stylistic consistency with the distribution of the student. In experiments on code generation using GPT-OSS-120B as the teacher, fine-tuning Qwen3-8B on teacher-generated data leads to performance drops of 3.25% on LiveCodeBench-Pro and 10.02% on OJBench, whereas TESSY achieves improvements of 11.25% and 6.68%.

¿Cómo ajustar un modelo de razonamiento? Un marco de cooperación maestro-estudiante para sintetizar datos SFT consistentes con el estudiante

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

Resumen

Support