SkillFactory: 인지 행동 학습을 위한 자기 지식 증류
SkillFactory: Self-Distillation For Learning Cognitive Behaviors
December 3, 2025
저자: Zayne Sprague, Jack Lu, Manya Wadhwa, Sedrick Keh, Mengye Ren, Greg Durrett
cs.AI
초록
긴 사고 사슬을 활용하는 추론 모델은 답변 검증, 역추적, 대체 방법 재시도 등 다양한 인지 기술을 사용합니다. 선행 연구에서는 기초 언어 모델이 이러한 기술을 보일 때 강화 학습(RL)을 통해 해당 모델을 추가 훈련하면 이러한 기술을 활용하는 방법을 학습할 수 있음이 입증되었습니다. 그렇다면 기초 모델에서 나타나지 않는 기술을 모델이 활용하도록 하는 방법은 무엇일까요? 본 연구인 SkillFactory는 강화 학습 이전의 지도 미세 조정(SFT) 단계에서 이러한 기술을 대략적으로 학습하도록 모델을 미세 조정하는 방법입니다. 우리의 접근 방식은 더 강력한 모델의 지식 증류에 의존하지 않고, 대신 해당 기술의 형식으로 훈련 데이터를 제공하기 위해 재구성된 모델 자체의 샘플을 사용합니다. 이러한 "실버" SFT 추적은 완벽하지 않을 수 있지만, 강화 학습 중에 모델이 기술을 습득하도록 준비시키는 데에는 효과적입니다. 우리의 평가 결과는 (1) SkillFactory SFT 초기화로 시작하면 강화 학습 전 성능은 낮더라도 강화 학습 후 과제의 더 어려운 변형으로 일반화하는 데 도움이 되며, (2) 모델이 실제로 인지 기술을 사용하며, (3) SkillFactory 모델을 강화 학습한 경우 기초 모델을 강화 학습한 것보다 도메인 외 과제에서의 성능 저하에 더 강건함을 보여줍니다. 본 연구는 강화 학습 전에 학습된 귀납적 편향이 모델이 강건한 인지 기술 사용을 학습하는 데 도움이 됨을 시사합니다.
English
Reasoning models leveraging long chains of thought employ various cognitive skills, such as verification of their answers, backtracking, retrying by an alternate method, and more. Previous work has shown that when a base language model exhibits these skills, training that model further with reinforcement learning (RL) can learn to leverage them. How can we get models to leverage skills that aren't exhibited by base models? Our work, SkillFactory, is a method for fine-tuning models to roughly learn these skills during a supervised fine-tuning (SFT) stage prior to RL. Our approach does not rely on distillation from a stronger model, but instead uses samples from the model itself, rearranged to provide training data in the format of those skills. These "silver" SFT traces may be imperfect, but are nevertheless effective for priming a model to acquire skills during RL. Our evaluation shows that (1) starting from SkillFactory SFT initialization helps a model to generalize to harder variants of a task post-RL, despite lower performance pre-RL; (2) cognitive skills are indeed used by the model; (3) RLed SkillFactory models are more robust to regression on out-of-domain tasks than RLed base models. Our work suggests that inductive biases learned prior to RL help models learn robust cognitive skill use.