**Como Ajustar Fino um Modelo de Raciocínio? Um Framework de Cooperação Professor-Aluno para Sintetizar Dados SFT Consistentes com o Aluno** **(Nota: O título acima é uma tradução direta. Abaixo está uma versão adaptada para maior fluência em português acadêmico, que poderia ser utilizada no corpo do texto):** **Como Realizar o Fine-Tuning de um Modelo de Raciocínio: Uma Abordagem de Cooperação Professor-Aluno para a Síntese de Dados de Fine-Tuning Supervisionado Consistentes com o Estudante** **Introdução/Metodologia (Exemplo de como o conceito seria traduzido):** Este artigo propõe um novo *framework* de cooperação entre professor e aluno para gerar dados de *Fine-Tuning Supervisionado* (SFT) de alta qualidade e consistentes com as capacidades do "aluno" (o modelo a ser ajustado). A abordagem central envolve a utilização de um modelo de linguagem grande (LLM) mais capaz, atuando como "professor", para supervisionar e guiar um modelo menor ("aluno") durante a geração ou seleção de dados para o SFT. O objetivo é criar um conjunto de dados de treinamento que esteja perfeitamente alinhado com o nível de conhecimento e estilo de raciocínio do modelo aluno, promovendo um aprendizado mais eficaz e evitando problemas como o *overfitting* ou a incapacidade do aluno de assimilar exemplos excessivamente complexos. O *framework* opera através de um ciclo iterativo: 1. **Geração pelo Professor:** O modelo "professor" gera um conjunto inicial de exemplos de raciocínio (ex.: cadeias de pensamento para problemas complexos). 2. **Avaliação e Filtragem Consistente com o Aluno:** Esses exemplos são então avaliados com base na sua "consistência com o aluno". Isso pode significar filtrar exemplos que estão além da capacidade corrente do modelo aluno ou adaptar a complexidade dos passos de raciocínio para um nível que o aluno possa compreender e imitar. 3. **Síntese do Conjunto de Dados SFT:** Os exemplos filtrados e adaptados formam o conjunto de dados SFT final, que é utilizado para ajustar o modelo aluno. 4. **Feedback e Iteração (Opcional):** O desempenho do aluno ajustado pode ser usado para refinar os critérios de "consistência", fechando o ciclo de cooperação. Dessa forma, o *framework* garante que os dados de treinamento não sejam apenas corretos (graças ao professor), mas também pedagogicamente adequados para o estágio de desenvolvimento do modelo aluno, otimizando o processo de *fine-tuning* para tarefas que exigem raciocínio.

Resumo

Uma estratégia amplamente adotada para aprimoramento de modelos é utilizar dados sintéticos gerados por um modelo mais forte para ajuste fino supervisionado (SFT). No entanto, para modelos emergentes de raciocínio como o Qwen3-8B, essa abordagem frequentemente falha em melhorar as capacidades de raciocínio e pode até levar a uma queda substancial de desempenho. Neste trabalho, identificamos uma divergência estilística substancial entre os dados gerados pelo professor e a distribuição do aluno como um fator principal que impacta o SFT. Para superar essa lacuna, propomos um framework de Síntese de Dados por Cooperação Professor-Aluno (TESSY), que entrelaça os modelos do professor e do aluno para gerar alternadamente tokens de estilo e de não-estilo. Consequentemente, o TESSY produz sequências sintéticas que herdam as capacidades avançadas de raciocínio do professor, mantendo ao mesmo tempo a consistência estilística com a distribuição do aluno. Em experimentos de geração de código usando o GPT-OSS-120B como professor, o ajuste fino do Qwen3-8B com dados gerados pelo professor resultou em quedas de desempenho de 3,25% no LiveCodeBench-Pro e 10,02% no OJBench, enquanto o TESSY obteve melhorias de 11,25% e 6,68%, respectivamente.

English

A widely adopted strategy for model enhancement is to use synthetic data generated by a stronger model for supervised fine-tuning (SFT). However, for emerging reasoning models like Qwen3-8B, this approach often fails to improve reasoning capabilities and can even lead to a substantial drop in performance. In this work, we identify substantial stylistic divergence between teacher generated data and the distribution of student as a major factor impacting SFT. To bridge this gap, we propose a Teacher-Student Cooperation Data Synthesis framework (TESSY), which interleaves teacher and student models to alternately generate style and non-style tokens. Consequently, TESSY produces synthetic sequences that inherit the advanced reasoning capabilities of the teacher while maintaining stylistic consistency with the distribution of the student. In experiments on code generation using GPT-OSS-120B as the teacher, fine-tuning Qwen3-8B on teacher-generated data leads to performance drops of 3.25% on LiveCodeBench-Pro and 10.02% on OJBench, whereas TESSY achieves improvements of 11.25% and 6.68%.

How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data

Resumo

Support