기술-대상 적응형 훈련
Skill-Targeted Adaptive Training
October 11, 2025
저자: Yinghui He, Abhishek Panigrahi, Yong Lin, Sanjeev Arora
cs.AI
초록
언어 모델은 종종 학습 세트에서 본 것과 유사한 데이터(예: MATH)에 대해 일반적인 지도 미세 조정(SFT)을 통해 학습할 때 거의 개선되지 않거나 "포화" 상태를 보입니다. 우리는 더 강력한 대형 언어 모델(LLM)의 메타인지 능력을 교사로 활용하여 이러한 학생 모델을 학습시키기 위한 새로운 미세 조정 전략인 STAT을 소개합니다. 교사는 작업 데이터셋을 사용하여 작업에 필요한 기술 목록을 작성한 다음, 각 데이터 포인트에 필요한 기술을 라벨링합니다(Didolkar et al., 2024). 학생의 답변을 모니터링함으로써, 교사는 학생의 Missing-Skill-Profile을 생성하여 각 기술을 응답에 적용하지 못한 빈도를 추적합니다. 우리는 이 아이디어를 사용하여 두 가지 방법 중 하나로 수정된 학습 세트를 구축합니다. STAT-Sel에서는 교사가 기존의 학습 예제 세트를 사용하지만 Missing-Skill-Profile에 따라 적응적으로 재가중합니다. STAT-Syn에서는 교사가 누락된 기술을 포함한 추가 예제를 합성합니다. Llama 및 Qwen 모델에 대한 광범위한 실험에서, 우리의 방법은 MATH에서 최대 7.5%의 개선을 가져온 반면, SFT는 제한된 이득만 제공했습니다. 또한, STAT은 분포 외 벤치마크(예: AIME24/25, AMC23 등)에서 평균 4.6%의 성능 향상을 보였습니다. 중요한 것은, STAT이 GRPO(Shao et al., 2024)를 통한 강화 학습(RL)과 상호 보완적이라는 점입니다: 모델이 STAT을 통해 기술 격차를 해결한 후, GRPO는 추가적인 이득을 계속 제공합니다. 우리는 기술 대상 적응 학습이 현재의 학습 파이프라인을 광범위하게 개선할 것이라고 결론지었습니다. 우리의 코드는 https://github.com/princeton-pli/STAT에서 확인할 수 있습니다.
English
Language models often show little to no improvement (i.e., "saturation") when
trained via vanilla supervised fine-tuning (SFT) on data similar to what they
saw in their training set (e.g., MATH). We introduce a new fine-tuning
strategy, STAT, to train such a student model by using the metacognition
ability of a stronger large language model (LLM) as the teacher. The teacher
uses the task dataset to create a list of skills needed for the task, and then
labels each data point with its required skills (Didolkar et al., 2024). By
monitoring the student's answers, the teacher creates a Missing-Skill-Profile
for the student, tracking how often they failed to apply each skill in their
responses. We use this idea to build a modified training set in one of two
ways. In STAT-Sel, the teacher uses an existing set of training examples but
adaptively reweights them according to the Missing-Skill-Profile. In STAT-Syn,
the teacher synthesizes additional examples involving missing skills. Across
extensive experiments on Llama and Qwen models, our methods yield improvements
of up to 7.5% on MATH, whereas SFT provides only limited gains. Furthermore,
STAT enhances performance on out-of-distribution benchmarks (e.g., AIME24/25,
AMC23, etc.) by an average of 4.6%. Crucially, we find that STAT is
complementary to RL via GRPO (Shao et al., 2024): after the model is improved
using STAT to address skill gaps, GRPO continues to add further gains. We
conclude that skill-targeted adaptive training should broadly improve current
training pipelines. Our code is available at:
https://github.com/princeton-pli/STAT.