SkillFactory: Self-Distillation zur Erlernung kognitiver Verhaltensweisen
SkillFactory: Self-Distillation For Learning Cognitive Behaviors
December 3, 2025
papers.authors: Zayne Sprague, Jack Lu, Manya Wadhwa, Sedrick Keh, Mengye Ren, Greg Durrett
cs.AI
papers.abstract
Reasoning-Modelle, die lange Gedankenketten nutzen, setzen verschiedene kognitive Fähigkeiten ein, wie die Überprüfung ihrer Antworten, Backtracking, erneutes Versuchen mit einer alternativen Methode und mehr. Frühere Arbeiten haben gezeigt, dass wenn ein Basissprachmodell diese Fähigkeiten aufweist, das weitere Training dieses Modells mit Reinforcement Learning (RL) lernen kann, sie zu nutzen. Wie können wir Modelle dazu bringen, Fähigkeiten zu nutzen, die von Basismodellen nicht gezeigt werden? Unsere Arbeit, SkillFactory, ist eine Methode zum Fine-Tuning von Modellen, um diese Fähigkeiten grob während einer überwachten Feinabstimmung (SFT) vor dem RL zu erlernen. Unser Ansatz stützt sich nicht auf die Destillation eines stärkeren Modells, sondern verwendet Proben des Modells selbst, die so umgeordnet werden, dass sie Trainingsdaten im Format dieser Fähigkeiten liefern. Diese "silbernen" SFT-Traces mögen unvollkommen sein, sind dennoch effektiv, um ein Modell darauf vorzubereiten, Fähigkeiten während des RL zu erwerben. Unsere Auswertung zeigt, dass (1) ein Start mit der SkillFactory-SFT-Initialisierung einem Modell hilft, nach dem RL auf schwierigere Varianten einer Aufgabe zu verallgemeinern, trotz geringerer Leistung vor dem RL; (2) kognitive Fähigkeiten tatsächlich vom Modell genutzt werden; (3) RL-trainierte SkillFactory-Modelle robuster gegen Regressionen bei aufgabenfremden Aufgaben sind als RL-trainierte Basismodelle. Unsere Arbeit legt nahe, dass vor dem RL erworbene induktive Verzerrungen Modellen helfen, eine robuste Nutzung kognitiver Fähigkeiten zu erlernen.
English
Reasoning models leveraging long chains of thought employ various cognitive skills, such as verification of their answers, backtracking, retrying by an alternate method, and more. Previous work has shown that when a base language model exhibits these skills, training that model further with reinforcement learning (RL) can learn to leverage them. How can we get models to leverage skills that aren't exhibited by base models? Our work, SkillFactory, is a method for fine-tuning models to roughly learn these skills during a supervised fine-tuning (SFT) stage prior to RL. Our approach does not rely on distillation from a stronger model, but instead uses samples from the model itself, rearranged to provide training data in the format of those skills. These "silver" SFT traces may be imperfect, but are nevertheless effective for priming a model to acquire skills during RL. Our evaluation shows that (1) starting from SkillFactory SFT initialization helps a model to generalize to harder variants of a task post-RL, despite lower performance pre-RL; (2) cognitive skills are indeed used by the model; (3) RLed SkillFactory models are more robust to regression on out-of-domain tasks than RLed base models. Our work suggests that inductive biases learned prior to RL help models learn robust cognitive skill use.