ChatPaper.aiChatPaper

SkillFactory: Zelfdistillatie voor het Aanleren van Cognitief Gedrag

SkillFactory: Self-Distillation For Learning Cognitive Behaviors

December 3, 2025
Auteurs: Zayne Sprague, Jack Lu, Manya Wadhwa, Sedrick Keh, Mengye Ren, Greg Durrett
cs.AI

Samenvatting

Redeneermodellen die gebruikmaken van lange denkketens benutten diverse cognitieve vaardigheden, zoals het verifiëren van antwoorden, terugspoelen, opnieuw proberen via een alternatieve methode, en meer. Eerder onderzoek heeft aangetoond dat wanneer een basistaalmodel deze vaardigheden vertoont, verdere training van dat model met reinforcement learning (RL) kan leren om ze te benutten. Maar hoe kunnen we modellen ertoe brengen vaardigheden te gebruiken die niet aanwezig zijn in basismodellen? Onze werk, SkillFactory, is een methode om modellen af te stemmen om deze vaardigheden grofweg aan te leren tijdens een supervised fine-tuning (SFT) fase vóór RL. Onze aanpak berust niet op distillatie van een sterker model, maar gebruikt instead steekproeven van het model zelf, die worden herschikt om trainingsdata aan te leveren in het formaat van die vaardigheden. Deze "zilveren" SFT-sporen zijn mogelijk imperfect, maar zijn desalniettemin effectief om een model voor te bereiden op het verwerven van vaardigheden tijdens RL. Onze evaluatie toont aan dat (1) starten vanaf een SkillFactory SFT-initialisatie een model helpt te generaliseren naar moeilijkere varianten van een taak na RL, ondanks lagere prestaties vóór RL; (2) cognitieve vaardigheden daadwerkelijk door het model worden gebruikt; (3) RL-getrainde SkillFactory-modellen robuuster zijn tegen regressie op taken buiten het domein dan RL-getrainde basismodellen. Ons werk suggereert dat inductieve vooroordelen die vóór RL worden aangeleerd, modellen helpen om robuust gebruik van cognitieve vaardigheden aan te leren.
English
Reasoning models leveraging long chains of thought employ various cognitive skills, such as verification of their answers, backtracking, retrying by an alternate method, and more. Previous work has shown that when a base language model exhibits these skills, training that model further with reinforcement learning (RL) can learn to leverage them. How can we get models to leverage skills that aren't exhibited by base models? Our work, SkillFactory, is a method for fine-tuning models to roughly learn these skills during a supervised fine-tuning (SFT) stage prior to RL. Our approach does not rely on distillation from a stronger model, but instead uses samples from the model itself, rearranged to provide training data in the format of those skills. These "silver" SFT traces may be imperfect, but are nevertheless effective for priming a model to acquire skills during RL. Our evaluation shows that (1) starting from SkillFactory SFT initialization helps a model to generalize to harder variants of a task post-RL, despite lower performance pre-RL; (2) cognitive skills are indeed used by the model; (3) RLed SkillFactory models are more robust to regression on out-of-domain tasks than RLed base models. Our work suggests that inductive biases learned prior to RL help models learn robust cognitive skill use.
PDF21December 5, 2025