ChatPaper.aiChatPaper

Адаптивное обучение, ориентированное на навыки

Skill-Targeted Adaptive Training

October 11, 2025
Авторы: Yinghui He, Abhishek Panigrahi, Yong Lin, Sanjeev Arora
cs.AI

Аннотация

Языковые модели часто демонстрируют незначительное или отсутствующее улучшение (т.е. "насыщение") при обучении с помощью стандартного контролируемого тонкого настройки (SFT) на данных, похожих на те, что они видели в обучающем наборе (например, MATH). Мы представляем новую стратегию тонкого настройки, STAT, для обучения такой модели-студента, используя метакогнитивные способности более мощной крупной языковой модели (LLM) в качестве учителя. Учитель использует набор данных задачи для создания списка навыков, необходимых для выполнения задачи, а затем маркирует каждую точку данных требуемыми навыками (Didolkar et al., 2024). Наблюдая за ответами студента, учитель создает профиль недостающих навыков, отслеживая, как часто студент не смог применить каждый навык в своих ответах. Мы используем эту идею для построения модифицированного обучающего набора одним из двух способов. В STAT-Sel учитель использует существующий набор обучающих примеров, но адаптивно перевзвешивает их в соответствии с профилем недостающих навыков. В STAT-Syn учитель синтезирует дополнительные примеры, включающие недостающие навыки. В ходе обширных экспериментов на моделях Llama и Qwen наши методы обеспечивают улучшение до 7,5% на MATH, тогда как SFT дает лишь ограниченные улучшения. Кроме того, STAT повышает производительность на тестах вне распределения (например, AIME24/25, AMC23 и т.д.) в среднем на 4,6%. Важно отметить, что мы обнаружили, что STAT дополняет обучение с подкреплением через GRPO (Shao et al., 2024): после того, как модель улучшена с помощью STAT для устранения пробелов в навыках, GRPO продолжает добавлять дополнительные улучшения. Мы заключаем, что адаптивное обучение, ориентированное на навыки, должно значительно улучшить текущие обучающие процессы. Наш код доступен по адресу: https://github.com/princeton-pli/STAT.
English
Language models often show little to no improvement (i.e., "saturation") when trained via vanilla supervised fine-tuning (SFT) on data similar to what they saw in their training set (e.g., MATH). We introduce a new fine-tuning strategy, STAT, to train such a student model by using the metacognition ability of a stronger large language model (LLM) as the teacher. The teacher uses the task dataset to create a list of skills needed for the task, and then labels each data point with its required skills (Didolkar et al., 2024). By monitoring the student's answers, the teacher creates a Missing-Skill-Profile for the student, tracking how often they failed to apply each skill in their responses. We use this idea to build a modified training set in one of two ways. In STAT-Sel, the teacher uses an existing set of training examples but adaptively reweights them according to the Missing-Skill-Profile. In STAT-Syn, the teacher synthesizes additional examples involving missing skills. Across extensive experiments on Llama and Qwen models, our methods yield improvements of up to 7.5% on MATH, whereas SFT provides only limited gains. Furthermore, STAT enhances performance on out-of-distribution benchmarks (e.g., AIME24/25, AMC23, etc.) by an average of 4.6%. Crucially, we find that STAT is complementary to RL via GRPO (Shao et al., 2024): after the model is improved using STAT to address skill gaps, GRPO continues to add further gains. We conclude that skill-targeted adaptive training should broadly improve current training pipelines. Our code is available at: https://github.com/princeton-pli/STAT.
PDF92October 14, 2025