ChatPaper.aiChatPaper

SkillFactory: Самообучение для освоения когнитивных моделей поведения

SkillFactory: Self-Distillation For Learning Cognitive Behaviors

December 3, 2025
Авторы: Zayne Sprague, Jack Lu, Manya Wadhwa, Sedrick Keh, Mengye Ren, Greg Durrett
cs.AI

Аннотация

Модели рассуждений, использующие длинные цепочки мысли, задействуют различные когнитивные навыки, такие как проверка ответов, возврат к предыдущим шагам, повторное решение альтернативным методом и другие. Предыдущие исследования показали, что когда базовая языковая модель демонстрирует эти навыки, дальнейшее обучение такой модели с подкреплением (RL) позволяет научить ее эффективно их использовать. Но как научить модели применять навыки, отсутствующие у базовых моделей? Наш метод SkillFactory заключается в тонкой настройке моделей для приблизительного освоения этих навыков на этапе контролируемой тонкой настройки (SFT), предшествующем RL. Наш подход не relies на дистилляцию знаний от более сильной модели, а использует сэмплы самой модели, перегруппированные для создания обучающих данных в формате этих навыков. Эти "серебряные" SFT-траектории могут быть неидеальными, но тем не менее эффективны для подготовки модели к приобретению навыков в ходе RL. Наша оценка показывает, что (1) начальная инициализация через SkillFactory SFT помогает модели обобщать знания на более сложные варианты задачи после RL, несмотря на более низкую производительность до RL; (2) модель действительно использует когнитивные навыки; (3) модели SkillFactory после RL демонстрируют большую устойчивость к регрессии на внедоменных задачах по сравнению с базовыми моделями после RL. Наша работа свидетельствует, что индуктивные смещения, усвоенные до RL, помогают моделям обучаться устойчивому использованию когнитивных навыков.
English
Reasoning models leveraging long chains of thought employ various cognitive skills, such as verification of their answers, backtracking, retrying by an alternate method, and more. Previous work has shown that when a base language model exhibits these skills, training that model further with reinforcement learning (RL) can learn to leverage them. How can we get models to leverage skills that aren't exhibited by base models? Our work, SkillFactory, is a method for fine-tuning models to roughly learn these skills during a supervised fine-tuning (SFT) stage prior to RL. Our approach does not rely on distillation from a stronger model, but instead uses samples from the model itself, rearranged to provide training data in the format of those skills. These "silver" SFT traces may be imperfect, but are nevertheless effective for priming a model to acquire skills during RL. Our evaluation shows that (1) starting from SkillFactory SFT initialization helps a model to generalize to harder variants of a task post-RL, despite lower performance pre-RL; (2) cognitive skills are indeed used by the model; (3) RLed SkillFactory models are more robust to regression on out-of-domain tasks than RLed base models. Our work suggests that inductive biases learned prior to RL help models learn robust cognitive skill use.
PDF21December 5, 2025