ChatPaper.aiChatPaper

Zielgerichtetes adaptives Training

Skill-Targeted Adaptive Training

October 11, 2025
papers.authors: Yinghui He, Abhishek Panigrahi, Yong Lin, Sanjeev Arora
cs.AI

papers.abstract

Sprachmodelle zeigen oft nur geringe oder gar keine Verbesserungen (d.h. „Sättigung“), wenn sie mittels herkömmlichem Supervised Fine-Tuning (SFT) auf Daten trainiert werden, die denen in ihrem Trainingsdatensatz ähneln (z.B. MATH). Wir stellen eine neue Fine-Tuning-Strategie, STAT, vor, um ein solches Schülermodell zu trainieren, indem wir die Metakognitionsfähigkeit eines stärkeren Large Language Models (LLM) als Lehrer nutzen. Der Lehrer verwendet den Aufgaben-Datensatz, um eine Liste der für die Aufgabe benötigten Fähigkeiten zu erstellen, und kennzeichnet dann jeden Datenpunkt mit den erforderlichen Fähigkeiten (Didolkar et al., 2024). Durch die Überwachung der Antworten des Schülers erstellt der Lehrer ein Missing-Skill-Profile für den Schüler, das festhält, wie oft dieser jede Fähigkeit in seinen Antworten nicht anwenden konnte. Wir nutzen diese Idee, um einen modifizierten Trainingsdatensatz auf eine von zwei Arten zu erstellen. Bei STAT-Sel verwendet der Lehrer einen bestehenden Satz von Trainingsbeispielen, gewichtet sie jedoch adaptiv gemäß dem Missing-Skill-Profile neu. Bei STAT-Syn synthetisiert der Lehrer zusätzliche Beispiele, die fehlende Fähigkeiten beinhalten. In umfangreichen Experimenten mit Llama- und Qwen-Modellen erzielen unsere Methoden Verbesserungen von bis zu 7,5 % auf MATH, während SFT nur begrenzte Fortschritte bietet. Darüber hinaus verbessert STAT die Leistung bei Out-of-Distribution-Benchmarks (z.B. AIME24/25, AMC23 usw.) im Durchschnitt um 4,6 %. Entscheidend ist, dass wir feststellen, dass STAT komplementär zu RL via GRPO (Shao et al., 2024) ist: Nachdem das Modell mit STAT verbessert wurde, um Fähigkeitslücken zu schließen, fügt GRPO weitere Gewinne hinzu. Wir kommen zu dem Schluss, dass zielgerichtetes adaptives Training die aktuellen Trainingspipelines allgemein verbessern sollte. Unser Code ist verfügbar unter: https://github.com/princeton-pli/STAT.
English
Language models often show little to no improvement (i.e., "saturation") when trained via vanilla supervised fine-tuning (SFT) on data similar to what they saw in their training set (e.g., MATH). We introduce a new fine-tuning strategy, STAT, to train such a student model by using the metacognition ability of a stronger large language model (LLM) as the teacher. The teacher uses the task dataset to create a list of skills needed for the task, and then labels each data point with its required skills (Didolkar et al., 2024). By monitoring the student's answers, the teacher creates a Missing-Skill-Profile for the student, tracking how often they failed to apply each skill in their responses. We use this idea to build a modified training set in one of two ways. In STAT-Sel, the teacher uses an existing set of training examples but adaptively reweights them according to the Missing-Skill-Profile. In STAT-Syn, the teacher synthesizes additional examples involving missing skills. Across extensive experiments on Llama and Qwen models, our methods yield improvements of up to 7.5% on MATH, whereas SFT provides only limited gains. Furthermore, STAT enhances performance on out-of-distribution benchmarks (e.g., AIME24/25, AMC23, etc.) by an average of 4.6%. Crucially, we find that STAT is complementary to RL via GRPO (Shao et al., 2024): after the model is improved using STAT to address skill gaps, GRPO continues to add further gains. We conclude that skill-targeted adaptive training should broadly improve current training pipelines. Our code is available at: https://github.com/princeton-pli/STAT.
PDF92October 14, 2025