ChatPaper.aiChatPaper

SkillFactory: Auto-distillazione per l'Apprendimento di Comportamenti Cognitivi

SkillFactory: Self-Distillation For Learning Cognitive Behaviors

December 3, 2025
Autori: Zayne Sprague, Jack Lu, Manya Wadhwa, Sedrick Keh, Mengye Ren, Greg Durrett
cs.AI

Abstract

I modelli di ragionamento che sfruttano lunghe catene di pensiero impiegano varie abilità cognitive, come la verifica delle proprie risposte, il backtracking, il riprovare con un metodo alternativo e altro ancora. Ricerche precedenti hanno dimostrato che quando un modello linguistico di base mostra queste abilità, un ulteriore addestramento di tale modello con l'apprendimento per rinforzo (RL) può imparare a sfruttarle. Come possiamo far sì che i modelli sfruttino abilità non mostrate dai modelli di base? Il nostro lavoro, SkillFactory, è un metodo per il fine-tuning dei modelli per apprendere approssimativamente queste abilità durante una fase di fine-tuning supervisionato (SFT) precedente all'RL. Il nostro approccio non si basa sulla distillazione da un modello più potente, ma utilizza invece campioni provenienti dal modello stesso, riorganizzati per fornire dati di addestramento nel formato di tali abilità. Queste tracce SFT "d'argento" possono essere imperfette, ma sono comunque efficaci per preparare un modello ad acquisire abilità durante l'RL. La nostra valutazione mostra che (1) partire da un'inizializzazione SFT con SkillFactory aiuta un modello a generalizzare verso varianti più difficili di un compito dopo l'RL, nonostante prestazioni inferiori prima dell'RL; (2) le abilità cognitive sono effettivamente utilizzate dal modello; (3) i modelli SkillFactory addestrati con RL sono più robusti alla regressione su compiti fuori dominio rispetto ai modelli di base addestrati con RL. Il nostro lavoro suggerisce che i bias induttivi appresi prima dell'RL aiutano i modelli ad apprendere un utilizzo robusto delle abilità cognitive.
English
Reasoning models leveraging long chains of thought employ various cognitive skills, such as verification of their answers, backtracking, retrying by an alternate method, and more. Previous work has shown that when a base language model exhibits these skills, training that model further with reinforcement learning (RL) can learn to leverage them. How can we get models to leverage skills that aren't exhibited by base models? Our work, SkillFactory, is a method for fine-tuning models to roughly learn these skills during a supervised fine-tuning (SFT) stage prior to RL. Our approach does not rely on distillation from a stronger model, but instead uses samples from the model itself, rearranged to provide training data in the format of those skills. These "silver" SFT traces may be imperfect, but are nevertheless effective for priming a model to acquire skills during RL. Our evaluation shows that (1) starting from SkillFactory SFT initialization helps a model to generalize to harder variants of a task post-RL, despite lower performance pre-RL; (2) cognitive skills are indeed used by the model; (3) RLed SkillFactory models are more robust to regression on out-of-domain tasks than RLed base models. Our work suggests that inductive biases learned prior to RL help models learn robust cognitive skill use.
PDF21December 5, 2025