ChatPaper.aiChatPaper

SkillFactory : Auto-distillation pour l'apprentissage de comportements cognitifs

SkillFactory: Self-Distillation For Learning Cognitive Behaviors

December 3, 2025
papers.authors: Zayne Sprague, Jack Lu, Manya Wadhwa, Sedrick Keh, Mengye Ren, Greg Durrett
cs.AI

papers.abstract

Les modèles de raisonnement exploitant de longues chaînes de pensée mobilisent diverses compétences cognitives, telles que la vérification de leurs réponses, le retour en arrière, la réessai par une méthode alternative, et plus encore. Des travaux antérieurs ont montré que lorsqu'un modèle de langage de base présente ces compétences, un entraînement supplémentaire de ce modèle par apprentissage par renforcement (RL) peut lui apprendre à les exploiter. Comment pouvons-nous amener les modèles à exploiter des compétences qui ne sont pas présentes dans les modèles de base ? Notre travail, SkillFactory, est une méthode de fine-tuning qui permet aux modèles d'acquérir approximativement ces compétences lors d'une étape de fine-tuning supervisé (SFT) avant le RL. Notre approche ne repose pas sur la distillation d'un modèle plus performant, mais utilise plutôt des échantillons provenant du modèle lui-même, réorganisés pour fournir des données d'entraînement correspondant au format de ces compétences. Ces traces SFT "argentées" peuvent être imparfaites, mais elles restent efficaces pour préparer un modèle à acquérir des compétences pendant le RL. Notre évaluation montre que (1) partir d'une initialisation SFT par SkillFactory aide un modèle à généraliser sur des variantes plus difficiles d'une tâche après le RL, malgré des performances inférieures avant le RL ; (2) les compétences cognitives sont bien utilisées par le modèle ; (3) les modèles SkillFactory entraînés par RL sont plus robustes face à la régression sur des tâches hors domaine que les modèles de base entraînés par RL. Notre travail suggère que les biais inductifs appris avant le RL aident les modèles à acquérir une utilisation robuste des compétences cognitives.
English
Reasoning models leveraging long chains of thought employ various cognitive skills, such as verification of their answers, backtracking, retrying by an alternate method, and more. Previous work has shown that when a base language model exhibits these skills, training that model further with reinforcement learning (RL) can learn to leverage them. How can we get models to leverage skills that aren't exhibited by base models? Our work, SkillFactory, is a method for fine-tuning models to roughly learn these skills during a supervised fine-tuning (SFT) stage prior to RL. Our approach does not rely on distillation from a stronger model, but instead uses samples from the model itself, rearranged to provide training data in the format of those skills. These "silver" SFT traces may be imperfect, but are nevertheless effective for priming a model to acquire skills during RL. Our evaluation shows that (1) starting from SkillFactory SFT initialization helps a model to generalize to harder variants of a task post-RL, despite lower performance pre-RL; (2) cognitive skills are indeed used by the model; (3) RLed SkillFactory models are more robust to regression on out-of-domain tasks than RLed base models. Our work suggests that inductive biases learned prior to RL help models learn robust cognitive skill use.
PDF21December 5, 2025