Vaardigheidsgericht Adaptief Opleiden
Skill-Targeted Adaptive Training
October 11, 2025
Auteurs: Yinghui He, Abhishek Panigrahi, Yong Lin, Sanjeev Arora
cs.AI
Samenvatting
Taalmodellen vertonen vaak weinig tot geen verbetering (d.w.z. "verzadiging") wanneer ze worden getraind via standaard supervised fine-tuning (SFT) op gegevens die vergelijkbaar zijn met wat ze in hun trainingsset hebben gezien (bijv. MATH). We introduceren een nieuwe fine-tuningstrategie, STAT, om zo'n studentmodel te trainen door gebruik te maken van het metacognitieve vermogen van een sterker groot taalmodel (LLM) als leraar. De leraar gebruikt de taakdataset om een lijst van benodigde vaardigheden voor de taak te creëren en labelt vervolgens elk datapunt met de vereiste vaardigheden (Didolkar et al., 2024). Door de antwoorden van de student te monitoren, creëert de leraar een Missing-Skill-Profile voor de student, waarbij wordt bijgehouden hoe vaak ze elke vaardigheid niet hebben toegepast in hun antwoorden. We gebruiken dit idee om een aangepaste trainingsset op te bouwen op een van de twee manieren. In STAT-Sel gebruikt de leraar een bestaande set van trainingsvoorbeelden maar past deze adaptief aan op basis van het Missing-Skill-Profile. In STAT-Syn synthetiseert de leraar aanvullende voorbeelden die ontbrekende vaardigheden bevatten. Uit uitgebreide experimenten met Llama- en Qwen-modellen blijkt dat onze methoden verbeteringen opleveren van tot wel 7,5% op MATH, terwijl SFT slechts beperkte vooruitgang biedt. Bovendien verbetert STAT de prestaties op out-of-distribution benchmarks (bijv. AIME24/25, AMC23, etc.) gemiddeld met 4,6%. Cruciaal is dat we vaststellen dat STAT complementair is aan RL via GRPO (Shao et al., 2024): nadat het model is verbeterd met STAT om vaardigheidslacunes aan te pakken, voegt GRPO verdere verbeteringen toe. We concluderen dat vaardigheidsgericht adaptief trainen de huidige trainingspijplijnen breeduit zou moeten verbeteren. Onze code is beschikbaar op: https://github.com/princeton-pli/STAT.
English
Language models often show little to no improvement (i.e., "saturation") when
trained via vanilla supervised fine-tuning (SFT) on data similar to what they
saw in their training set (e.g., MATH). We introduce a new fine-tuning
strategy, STAT, to train such a student model by using the metacognition
ability of a stronger large language model (LLM) as the teacher. The teacher
uses the task dataset to create a list of skills needed for the task, and then
labels each data point with its required skills (Didolkar et al., 2024). By
monitoring the student's answers, the teacher creates a Missing-Skill-Profile
for the student, tracking how often they failed to apply each skill in their
responses. We use this idea to build a modified training set in one of two
ways. In STAT-Sel, the teacher uses an existing set of training examples but
adaptively reweights them according to the Missing-Skill-Profile. In STAT-Syn,
the teacher synthesizes additional examples involving missing skills. Across
extensive experiments on Llama and Qwen models, our methods yield improvements
of up to 7.5% on MATH, whereas SFT provides only limited gains. Furthermore,
STAT enhances performance on out-of-distribution benchmarks (e.g., AIME24/25,
AMC23, etc.) by an average of 4.6%. Crucially, we find that STAT is
complementary to RL via GRPO (Shao et al., 2024): after the model is improved
using STAT to address skill gaps, GRPO continues to add further gains. We
conclude that skill-targeted adaptive training should broadly improve current
training pipelines. Our code is available at:
https://github.com/princeton-pli/STAT.