Formation adaptative ciblée sur les compétences
Skill-Targeted Adaptive Training
October 11, 2025
papers.authors: Yinghui He, Abhishek Panigrahi, Yong Lin, Sanjeev Arora
cs.AI
papers.abstract
Les modèles de langage montrent souvent peu ou pas d'amélioration (c'est-à-dire une "saturation") lorsqu'ils sont entraînés via un réglage fin supervisé classique (SFT) sur des données similaires à celles de leur ensemble d'entraînement (par exemple, MATH). Nous introduisons une nouvelle stratégie de réglage fin, STAT, pour entraîner un tel modèle étudiant en utilisant la capacité de métacognition d'un modèle de langage plus puissant (LLM) comme enseignant. L'enseignant utilise l'ensemble de données de la tâche pour créer une liste de compétences nécessaires à la tâche, puis étiquette chaque point de données avec les compétences requises (Didolkar et al., 2024). En surveillant les réponses de l'étudiant, l'enseignant crée un profil des compétences manquantes pour l'étudiant, en suivant la fréquence à laquelle il n'a pas appliqué chaque compétence dans ses réponses. Nous utilisons cette idée pour construire un ensemble d'entraînement modifié de l'une des deux manières suivantes. Dans STAT-Sel, l'enseignant utilise un ensemble existant d'exemples d'entraînement mais les repondère de manière adaptative en fonction du profil des compétences manquantes. Dans STAT-Syn, l'enseignant synthétise des exemples supplémentaires impliquant les compétences manquantes. À travers des expériences approfondies sur les modèles Llama et Qwen, nos méthodes permettent des améliorations allant jusqu'à 7,5 % sur MATH, alors que le SFT ne fournit que des gains limités. De plus, STAT améliore les performances sur des benchmarks hors distribution (par exemple, AIME24/25, AMC23, etc.) en moyenne de 4,6 %. Fait crucial, nous constatons que STAT est complémentaire à l'apprentissage par renforcement via GRPO (Shao et al., 2024) : après que le modèle a été amélioré en utilisant STAT pour combler les lacunes en compétences, GRPO continue d'apporter des gains supplémentaires. Nous concluons qu'un entraînement adaptatif ciblé sur les compétences devrait améliorer de manière générale les pipelines d'entraînement actuels. Notre code est disponible à l'adresse suivante : https://github.com/princeton-pli/STAT.
English
Language models often show little to no improvement (i.e., "saturation") when
trained via vanilla supervised fine-tuning (SFT) on data similar to what they
saw in their training set (e.g., MATH). We introduce a new fine-tuning
strategy, STAT, to train such a student model by using the metacognition
ability of a stronger large language model (LLM) as the teacher. The teacher
uses the task dataset to create a list of skills needed for the task, and then
labels each data point with its required skills (Didolkar et al., 2024). By
monitoring the student's answers, the teacher creates a Missing-Skill-Profile
for the student, tracking how often they failed to apply each skill in their
responses. We use this idea to build a modified training set in one of two
ways. In STAT-Sel, the teacher uses an existing set of training examples but
adaptively reweights them according to the Missing-Skill-Profile. In STAT-Syn,
the teacher synthesizes additional examples involving missing skills. Across
extensive experiments on Llama and Qwen models, our methods yield improvements
of up to 7.5% on MATH, whereas SFT provides only limited gains. Furthermore,
STAT enhances performance on out-of-distribution benchmarks (e.g., AIME24/25,
AMC23, etc.) by an average of 4.6%. Crucially, we find that STAT is
complementary to RL via GRPO (Shao et al., 2024): after the model is improved
using STAT to address skill gaps, GRPO continues to add further gains. We
conclude that skill-targeted adaptive training should broadly improve current
training pipelines. Our code is available at:
https://github.com/princeton-pli/STAT.