ChatPaper.aiChatPaper

スキルターゲット型適応トレーニング

Skill-Targeted Adaptive Training

October 11, 2025
著者: Yinghui He, Abhishek Panigrahi, Yong Lin, Sanjeev Arora
cs.AI

要旨

言語モデルは、訓練セット(例:MATH)で見たデータと類似したデータに対して、通常の教師ありファインチューニング(SFT)を行っても、ほとんど改善が見られない(いわゆる「飽和」状態)ことが多い。本論文では、より強力な大規模言語モデル(LLM)のメタ認知能力を教師として活用し、学生モデルを訓練する新しいファインチューニング戦略「STAT」を提案する。教師はタスクデータセットを使用して、そのタスクに必要なスキルのリストを作成し、各データポイントに必要なスキルをラベル付けする(Didolkar et al., 2024)。学生の回答を監視することで、教師は学生の「欠落スキルプロファイル」を作成し、各スキルが回答に適用されなかった頻度を追跡する。このアイデアを用いて、以下の2つの方法のいずれかで修正された訓練セットを構築する。STAT-Selでは、教師は既存の訓練例を使用するが、欠落スキルプロファイルに応じて適応的に重み付けを行う。STAT-Synでは、教師は欠落スキルに関連する追加の例を合成する。LlamaおよびQwenモデルを用いた広範な実験を通じて、我々の手法はMATHにおいて最大7.5%の改善をもたらし、一方でSFTは限定的な改善しか提供しないことが示された。さらに、STATは分布外ベンチマーク(例:AIME24/25、AMC23など)において平均4.6%の性能向上をもたらす。重要なことに、STATはGRPOによる強化学習(Shao et al., 2024)と補完的であることがわかった:STATを使用してスキルギャップを解消した後、GRPOがさらなる改善を加える。我々は、スキルターゲット型の適応訓練が現在の訓練パイプラインを広く改善するべきであると結論付ける。コードは以下で公開されている: https://github.com/princeton-pli/STAT。
English
Language models often show little to no improvement (i.e., "saturation") when trained via vanilla supervised fine-tuning (SFT) on data similar to what they saw in their training set (e.g., MATH). We introduce a new fine-tuning strategy, STAT, to train such a student model by using the metacognition ability of a stronger large language model (LLM) as the teacher. The teacher uses the task dataset to create a list of skills needed for the task, and then labels each data point with its required skills (Didolkar et al., 2024). By monitoring the student's answers, the teacher creates a Missing-Skill-Profile for the student, tracking how often they failed to apply each skill in their responses. We use this idea to build a modified training set in one of two ways. In STAT-Sel, the teacher uses an existing set of training examples but adaptively reweights them according to the Missing-Skill-Profile. In STAT-Syn, the teacher synthesizes additional examples involving missing skills. Across extensive experiments on Llama and Qwen models, our methods yield improvements of up to 7.5% on MATH, whereas SFT provides only limited gains. Furthermore, STAT enhances performance on out-of-distribution benchmarks (e.g., AIME24/25, AMC23, etc.) by an average of 4.6%. Crucially, we find that STAT is complementary to RL via GRPO (Shao et al., 2024): after the model is improved using STAT to address skill gaps, GRPO continues to add further gains. We conclude that skill-targeted adaptive training should broadly improve current training pipelines. Our code is available at: https://github.com/princeton-pli/STAT.
PDF92October 14, 2025