Addestramento Adattivo Mirato alle Competenze
Skill-Targeted Adaptive Training
October 11, 2025
Autori: Yinghui He, Abhishek Panigrahi, Yong Lin, Sanjeev Arora
cs.AI
Abstract
I modelli linguistici spesso mostrano scarsi o nulli miglioramenti (cioè, "saturazione") quando vengono addestrati tramite il classico fine-tuning supervisionato (SFT) su dati simili a quelli visti nel loro set di addestramento (ad esempio, MATH). Introduciamo una nuova strategia di fine-tuning, STAT, per addestrare un modello studente sfruttando la capacità di metacognizione di un modello linguistico di grandi dimensioni (LLM) più potente come insegnante. L'insegnante utilizza il dataset del compito per creare un elenco di competenze necessarie per il compito, e poi etichetta ogni punto dati con le competenze richieste (Didolkar et al., 2024). Monitorando le risposte dello studente, l'insegnante crea un Profilo delle Competenze Mancanti per lo studente, tenendo traccia di quante volte non ha applicato ciascuna competenza nelle sue risposte. Utilizziamo questa idea per costruire un set di addestramento modificato in uno dei due modi. In STAT-Sel, l'insegnante utilizza un set esistente di esempi di addestramento ma li ripesa in modo adattivo in base al Profilo delle Competenze Mancanti. In STAT-Syn, l'insegnante sintetizza ulteriori esempi che coinvolgono le competenze mancanti. Attraverso esperimenti estesi sui modelli Llama e Qwen, i nostri metodi producono miglioramenti fino al 7,5% su MATH, mentre l'SFT offre solo guadagni limitati. Inoltre, STAT migliora le prestazioni su benchmark fuori distribuzione (ad esempio, AIME24/25, AMC23, ecc.) in media del 4,6%. È cruciale notare che STAT è complementare all'RL tramite GRPO (Shao et al., 2024): dopo che il modello è stato migliorato utilizzando STAT per colmare le lacune di competenza, GRPO continua ad apportare ulteriori miglioramenti. Concludiamo che l'addestramento adattivo mirato alle competenze dovrebbe migliorare ampiamente le pipeline di addestramento attuali. Il nostro codice è disponibile all'indirizzo: https://github.com/princeton-pli/STAT.
English
Language models often show little to no improvement (i.e., "saturation") when
trained via vanilla supervised fine-tuning (SFT) on data similar to what they
saw in their training set (e.g., MATH). We introduce a new fine-tuning
strategy, STAT, to train such a student model by using the metacognition
ability of a stronger large language model (LLM) as the teacher. The teacher
uses the task dataset to create a list of skills needed for the task, and then
labels each data point with its required skills (Didolkar et al., 2024). By
monitoring the student's answers, the teacher creates a Missing-Skill-Profile
for the student, tracking how often they failed to apply each skill in their
responses. We use this idea to build a modified training set in one of two
ways. In STAT-Sel, the teacher uses an existing set of training examples but
adaptively reweights them according to the Missing-Skill-Profile. In STAT-Syn,
the teacher synthesizes additional examples involving missing skills. Across
extensive experiments on Llama and Qwen models, our methods yield improvements
of up to 7.5% on MATH, whereas SFT provides only limited gains. Furthermore,
STAT enhances performance on out-of-distribution benchmarks (e.g., AIME24/25,
AMC23, etc.) by an average of 4.6%. Crucially, we find that STAT is
complementary to RL via GRPO (Shao et al., 2024): after the model is improved
using STAT to address skill gaps, GRPO continues to add further gains. We
conclude that skill-targeted adaptive training should broadly improve current
training pipelines. Our code is available at:
https://github.com/princeton-pli/STAT.