Formation adaptative ciblée sur les compétences

papers.abstract

Les modèles de langage montrent souvent peu ou pas d'amélioration (c'est-à-dire une "saturation") lorsqu'ils sont entraînés via un réglage fin supervisé classique (SFT) sur des données similaires à celles de leur ensemble d'entraînement (par exemple, MATH). Nous introduisons une nouvelle stratégie de réglage fin, STAT, pour entraîner un tel modèle étudiant en utilisant la capacité de métacognition d'un modèle de langage plus puissant (LLM) comme enseignant. L'enseignant utilise l'ensemble de données de la tâche pour créer une liste de compétences nécessaires à la tâche, puis étiquette chaque point de données avec les compétences requises (Didolkar et al., 2024). En surveillant les réponses de l'étudiant, l'enseignant crée un profil des compétences manquantes pour l'étudiant, en suivant la fréquence à laquelle il n'a pas appliqué chaque compétence dans ses réponses. Nous utilisons cette idée pour construire un ensemble d'entraînement modifié de l'une des deux manières suivantes. Dans STAT-Sel, l'enseignant utilise un ensemble existant d'exemples d'entraînement mais les repondère de manière adaptative en fonction du profil des compétences manquantes. Dans STAT-Syn, l'enseignant synthétise des exemples supplémentaires impliquant les compétences manquantes. À travers des expériences approfondies sur les modèles Llama et Qwen, nos méthodes permettent des améliorations allant jusqu'à 7,5 % sur MATH, alors que le SFT ne fournit que des gains limités. De plus, STAT améliore les performances sur des benchmarks hors distribution (par exemple, AIME24/25, AMC23, etc.) en moyenne de 4,6 %. Fait crucial, nous constatons que STAT est complémentaire à l'apprentissage par renforcement via GRPO (Shao et al., 2024) : après que le modèle a été amélioré en utilisant STAT pour combler les lacunes en compétences, GRPO continue d'apporter des gains supplémentaires. Nous concluons qu'un entraînement adaptatif ciblé sur les compétences devrait améliorer de manière générale les pipelines d'entraînement actuels. Notre code est disponible à l'adresse suivante : https://github.com/princeton-pli/STAT.

English

Language models often show little to no improvement (i.e., "saturation") when trained via vanilla supervised fine-tuning (SFT) on data similar to what they saw in their training set (e.g., MATH). We introduce a new fine-tuning strategy, STAT, to train such a student model by using the metacognition ability of a stronger large language model (LLM) as the teacher. The teacher uses the task dataset to create a list of skills needed for the task, and then labels each data point with its required skills (Didolkar et al., 2024). By monitoring the student's answers, the teacher creates a Missing-Skill-Profile for the student, tracking how often they failed to apply each skill in their responses. We use this idea to build a modified training set in one of two ways. In STAT-Sel, the teacher uses an existing set of training examples but adaptively reweights them according to the Missing-Skill-Profile. In STAT-Syn, the teacher synthesizes additional examples involving missing skills. Across extensive experiments on Llama and Qwen models, our methods yield improvements of up to 7.5% on MATH, whereas SFT provides only limited gains. Furthermore, STAT enhances performance on out-of-distribution benchmarks (e.g., AIME24/25, AMC23, etc.) by an average of 4.6%. Crucially, we find that STAT is complementary to RL via GRPO (Shao et al., 2024): after the model is improved using STAT to address skill gaps, GRPO continues to add further gains. We conclude that skill-targeted adaptive training should broadly improve current training pipelines. Our code is available at: https://github.com/princeton-pli/STAT.

Formation adaptative ciblée sur les compétences

Skill-Targeted Adaptive Training

papers.abstract

Support