Comportamentos Cognitivos que Habilitam Raciocinadores de Autoaperfeiçoamento, ou, Quatro Hábitos de STaRs Altamente Eficazes

Resumo

A inferência em tempo de teste surgiu como um paradigma poderoso para permitir que modelos de linguagem "pensem" por mais tempo e com mais cuidado sobre desafios complexos, de forma semelhante a especialistas humanos habilidosos. Embora o aprendizado por reforço (RL) possa impulsionar a autossuperação em modelos de linguagem em tarefas verificáveis, alguns modelos exibem ganhos substanciais, enquanto outros rapidamente atingem um platô. Por exemplo, descobrimos que o Qwen-2.5-3B supera amplamente o Llama-3.2-3B sob treinamento de RL idêntico para o jogo Countdown. Essa discrepância levanta uma questão crítica: quais propriedades intrínsecas permitem uma autossuperação eficaz? Introduzimos uma estrutura para investigar essa questão, analisando quatro comportamentos cognitivos-chave -- verificação, retrocesso, definição de subobjetivos e encadeamento regressivo -- que tanto solucionadores de problemas humanos especializados quanto modelos de linguagem bem-sucedidos empregam. Nosso estudo revela que o Qwen exibe naturalmente esses comportamentos de raciocínio, enquanto o Llama inicialmente carece deles. Em experimentação sistemática com conjuntos de dados comportamentais controlados, descobrimos que preparar o Llama com exemplos contendo esses comportamentos de raciocínio permite melhorias substanciais durante o RL, igualando ou superando o desempenho do Qwen. Importante destacar que a presença de comportamentos de raciocínio, em vez da correção das respostas, prova-se ser o fator crítico -- modelos preparados com soluções incorretas contendo padrões de raciocínio adequados alcançam desempenho comparável àqueles treinados com soluções corretas. Por fim, aproveitando o pré-treinamento contínuo com dados do OpenWebMath, filtrados para amplificar comportamentos de raciocínio, permite que o modelo Llama iguale a trajetória de autossuperação do Qwen. Nossas descobertas estabelecem uma relação fundamental entre comportamentos de raciocínio iniciais e a capacidade de melhoria, explicando por que alguns modelos de linguagem utilizam efetivamente computação adicional, enquanto outros atingem um platô.

English

Test-time inference has emerged as a powerful paradigm for enabling language models to ``think'' longer and more carefully about complex challenges, much like skilled human experts. While reinforcement learning (RL) can drive self-improvement in language models on verifiable tasks, some models exhibit substantial gains while others quickly plateau. For instance, we find that Qwen-2.5-3B far exceeds Llama-3.2-3B under identical RL training for the game of Countdown. This discrepancy raises a critical question: what intrinsic properties enable effective self-improvement? We introduce a framework to investigate this question by analyzing four key cognitive behaviors -- verification, backtracking, subgoal setting, and backward chaining -- that both expert human problem solvers and successful language models employ. Our study reveals that Qwen naturally exhibits these reasoning behaviors, whereas Llama initially lacks them. In systematic experimentation with controlled behavioral datasets, we find that priming Llama with examples containing these reasoning behaviors enables substantial improvements during RL, matching or exceeding Qwen's performance. Importantly, the presence of reasoning behaviors, rather than correctness of answers, proves to be the critical factor -- models primed with incorrect solutions containing proper reasoning patterns achieve comparable performance to those trained on correct solutions. Finally, leveraging continued pretraining with OpenWebMath data, filtered to amplify reasoning behaviors, enables the Llama model to match Qwen's self-improvement trajectory. Our findings establish a fundamental relationship between initial reasoning behaviors and the capacity for improvement, explaining why some language models effectively utilize additional computation while others plateau.

Comportamentos Cognitivos que Habilitam Raciocinadores de Autoaperfeiçoamento, ou, Quatro Hábitos de STaRs Altamente Eficazes

Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs

Resumo

Summary

Support

Support