Treinamento Adaptativo Direcionado a Habilidades
Skill-Targeted Adaptive Training
October 11, 2025
Autores: Yinghui He, Abhishek Panigrahi, Yong Lin, Sanjeev Arora
cs.AI
Resumo
Modelos de linguagem frequentemente mostram pouca ou nenhuma melhoria (ou seja, "saturação") quando treinados por meio de ajuste fino supervisionado convencional (SFT) em dados semelhantes aos que viram em seu conjunto de treinamento (por exemplo, MATH). Introduzimos uma nova estratégia de ajuste fino, STAT, para treinar um modelo estudante utilizando a capacidade de metacognição de um modelo de linguagem grande (LLM) mais forte como professor. O professor usa o conjunto de dados da tarefa para criar uma lista de habilidades necessárias para a tarefa e, em seguida, rotula cada ponto de dados com as habilidades exigidas (Didolkar et al., 2024). Ao monitorar as respostas do estudante, o professor cria um Perfil de Habilidades Faltantes para o estudante, rastreando com que frequência ele falhou em aplicar cada habilidade em suas respostas. Usamos essa ideia para construir um conjunto de treinamento modificado de uma das duas maneiras. No STAT-Sel, o professor usa um conjunto existente de exemplos de treinamento, mas os reajusta de forma adaptativa de acordo com o Perfil de Habilidades Faltantes. No STAT-Syn, o professor sintetiza exemplos adicionais envolvendo habilidades faltantes. Em experimentos extensivos com modelos Llama e Qwen, nossos métodos resultam em melhorias de até 7,5% no MATH, enquanto o SFT oferece apenas ganhos limitados. Além disso, o STAT melhora o desempenho em benchmarks fora da distribuição (por exemplo, AIME24/25, AMC23, etc.) em uma média de 4,6%. Crucialmente, descobrimos que o STAT é complementar ao RL via GRPO (Shao et al., 2024): após o modelo ser aprimorado usando o STAT para abordar lacunas de habilidades, o GRPO continua a adicionar ganhos adicionais. Concluímos que o treinamento adaptativo direcionado a habilidades deve melhorar amplamente os pipelines de treinamento atuais. Nosso código está disponível em: https://github.com/princeton-pli/STAT.
English
Language models often show little to no improvement (i.e., "saturation") when
trained via vanilla supervised fine-tuning (SFT) on data similar to what they
saw in their training set (e.g., MATH). We introduce a new fine-tuning
strategy, STAT, to train such a student model by using the metacognition
ability of a stronger large language model (LLM) as the teacher. The teacher
uses the task dataset to create a list of skills needed for the task, and then
labels each data point with its required skills (Didolkar et al., 2024). By
monitoring the student's answers, the teacher creates a Missing-Skill-Profile
for the student, tracking how often they failed to apply each skill in their
responses. We use this idea to build a modified training set in one of two
ways. In STAT-Sel, the teacher uses an existing set of training examples but
adaptively reweights them according to the Missing-Skill-Profile. In STAT-Syn,
the teacher synthesizes additional examples involving missing skills. Across
extensive experiments on Llama and Qwen models, our methods yield improvements
of up to 7.5% on MATH, whereas SFT provides only limited gains. Furthermore,
STAT enhances performance on out-of-distribution benchmarks (e.g., AIME24/25,
AMC23, etc.) by an average of 4.6%. Crucially, we find that STAT is
complementary to RL via GRPO (Shao et al., 2024): after the model is improved
using STAT to address skill gaps, GRPO continues to add further gains. We
conclude that skill-targeted adaptive training should broadly improve current
training pipelines. Our code is available at:
https://github.com/princeton-pli/STAT.