SkillFactory: Auto-Distilação para Aprendizagem de Comportamentos Cognitivos

Resumo

Os modelos de raciocínio que utilizam longas cadeias de pensamento empregam diversas habilidades cognitivas, como verificação de respostas, retrocesso, tentativa por métodos alternativos, entre outras. Trabalhos anteriores demonstraram que, quando um modelo de linguagem base exibe essas habilidades, o treinamento adicional desse modelo com aprendizagem por reforço (RL) pode aprender a utilizá-las. Como podemos fazer com que os modelos aproveitem habilidades não apresentadas pelos modelos base? Nosso trabalho, SkillFactory, é um método para ajustar modelos a fim de aprender aproximadamente essas habilidades durante uma fase de ajuste fino supervisionado (SFT) anterior ao RL. Nossa abordagem não depende da destilação de um modelo mais forte, mas utiliza amostras do próprio modelo, reorganizadas para fornecer dados de treinamento no formato dessas habilidades. Esses traços de SFT "prateados" podem ser imperfeitos, mas são eficazes para preparar um modelo a adquirir habilidades durante o RL. Nossa avaliação mostra que (1) iniciar a partir da inicialização SFT do SkillFactory ajuda o modelo a generalizar para variantes mais difíceis de uma tarefa após o RL, apesar do desempenho inferior pré-RL; (2) as habilidades cognitivas são de fato utilizadas pelo modelo; (3) os modelos SkillFactory com RL são mais robustos contra regressão em tarefas fora do domínio do que os modelos base com RL. Nosso trabalho sugere que vieses indutivos aprendidos antes do RL ajudam os modelos a aprender um uso robusto de habilidades cognitivas.

English

Reasoning models leveraging long chains of thought employ various cognitive skills, such as verification of their answers, backtracking, retrying by an alternate method, and more. Previous work has shown that when a base language model exhibits these skills, training that model further with reinforcement learning (RL) can learn to leverage them. How can we get models to leverage skills that aren't exhibited by base models? Our work, SkillFactory, is a method for fine-tuning models to roughly learn these skills during a supervised fine-tuning (SFT) stage prior to RL. Our approach does not rely on distillation from a stronger model, but instead uses samples from the model itself, rearranged to provide training data in the format of those skills. These "silver" SFT traces may be imperfect, but are nevertheless effective for priming a model to acquire skills during RL. Our evaluation shows that (1) starting from SkillFactory SFT initialization helps a model to generalize to harder variants of a task post-RL, despite lower performance pre-RL; (2) cognitive skills are indeed used by the model; (3) RLed SkillFactory models are more robust to regression on out-of-domain tasks than RLed base models. Our work suggests that inductive biases learned prior to RL help models learn robust cognitive skill use.

SkillFactory: Auto-Distilação para Aprendizagem de Comportamentos Cognitivos

SkillFactory: Self-Distillation For Learning Cognitive Behaviors

Resumo

Support