ChatPaper.aiChatPaper

SkillFactory: Auto-distilación para el Aprendizaje de Conductas Cognitivas

SkillFactory: Self-Distillation For Learning Cognitive Behaviors

December 3, 2025
Autores: Zayne Sprague, Jack Lu, Manya Wadhwa, Sedrick Keh, Mengye Ren, Greg Durrett
cs.AI

Resumen

Los modelos de razonamiento que utilizan largas cadenas de pensamiento emplean diversas habilidades cognitivas, como la verificación de sus respuestas, la retroceso, el reintento mediante un método alternativo y más. Trabajos previos han demostrado que cuando un modelo de lenguaje base exhibe estas habilidades, el entrenamiento adicional de dicho modelo con aprendizaje por refuerzo (RL) puede aprender a aprovecharlas. ¿Cómo podemos conseguir que los modelos utilicen habilidades que no exhiben los modelos base? Nuestro trabajo, SkillFactory, es un método para ajustar modelos con el fin de aprender aproximadamente estas habilidades durante una etapa de ajuste fino supervisado (SFT) previa al RL. Nuestro enfoque no se basa en la destilación de un modelo más potente, sino que utiliza muestras del propio modelo, reorganizadas para proporcionar datos de entrenamiento en el formato de dichas habilidades. Estos rastros SFT "plata" pueden ser imperfectos, pero aun así son efectivos para preparar a un modelo para adquirir habilidades durante el RL. Nuestra evaluación muestra que (1) comenzar desde una inicialización SFT de SkillFactory ayuda a que un modelo generalice hacia variantes más difíciles de una tarea después del RL, a pesar de un rendimiento inferior antes del RL; (2) las habilidades cognitivas son efectivamente utilizadas por el modelo; (3) los modelos SkillFactory ajustados con RL son más robustos frente a la regresión en tareas fuera de dominio que los modelos base ajustados con RL. Nuestro trabajo sugiere que los sesgos inductivos aprendidos antes del RL ayudan a los modelos a aprender un uso robusto de las habilidades cognitivas.
English
Reasoning models leveraging long chains of thought employ various cognitive skills, such as verification of their answers, backtracking, retrying by an alternate method, and more. Previous work has shown that when a base language model exhibits these skills, training that model further with reinforcement learning (RL) can learn to leverage them. How can we get models to leverage skills that aren't exhibited by base models? Our work, SkillFactory, is a method for fine-tuning models to roughly learn these skills during a supervised fine-tuning (SFT) stage prior to RL. Our approach does not rely on distillation from a stronger model, but instead uses samples from the model itself, rearranged to provide training data in the format of those skills. These "silver" SFT traces may be imperfect, but are nevertheless effective for priming a model to acquire skills during RL. Our evaluation shows that (1) starting from SkillFactory SFT initialization helps a model to generalize to harder variants of a task post-RL, despite lower performance pre-RL; (2) cognitive skills are indeed used by the model; (3) RLed SkillFactory models are more robust to regression on out-of-domain tasks than RLed base models. Our work suggests that inductive biases learned prior to RL help models learn robust cognitive skill use.
PDF21December 5, 2025