Comportamentos Cognitivos que Habilitam Raciocinadores de Autoaperfeiçoamento, ou, Quatro Hábitos de STaRs Altamente Eficazes
Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs
March 3, 2025
Autores: Kanishk Gandhi, Ayush Chakravarthy, Anikait Singh, Nathan Lile, Noah D. Goodman
cs.AI
Resumo
A inferência em tempo de teste surgiu como um paradigma poderoso para permitir que modelos de linguagem "pensem" por mais tempo e com mais cuidado sobre desafios complexos, de forma semelhante a especialistas humanos habilidosos. Embora o aprendizado por reforço (RL) possa impulsionar a autossuperação em modelos de linguagem em tarefas verificáveis, alguns modelos exibem ganhos substanciais, enquanto outros rapidamente atingem um platô. Por exemplo, descobrimos que o Qwen-2.5-3B supera amplamente o Llama-3.2-3B sob treinamento de RL idêntico para o jogo Countdown. Essa discrepância levanta uma questão crítica: quais propriedades intrínsecas permitem uma autossuperação eficaz? Introduzimos uma estrutura para investigar essa questão, analisando quatro comportamentos cognitivos-chave -- verificação, retrocesso, definição de subobjetivos e encadeamento regressivo -- que tanto solucionadores de problemas humanos especializados quanto modelos de linguagem bem-sucedidos empregam. Nosso estudo revela que o Qwen exibe naturalmente esses comportamentos de raciocínio, enquanto o Llama inicialmente carece deles. Em experimentação sistemática com conjuntos de dados comportamentais controlados, descobrimos que preparar o Llama com exemplos contendo esses comportamentos de raciocínio permite melhorias substanciais durante o RL, igualando ou superando o desempenho do Qwen. Importante destacar que a presença de comportamentos de raciocínio, em vez da correção das respostas, prova-se ser o fator crítico -- modelos preparados com soluções incorretas contendo padrões de raciocínio adequados alcançam desempenho comparável àqueles treinados com soluções corretas. Por fim, aproveitando o pré-treinamento contínuo com dados do OpenWebMath, filtrados para amplificar comportamentos de raciocínio, permite que o modelo Llama iguale a trajetória de autossuperação do Qwen. Nossas descobertas estabelecem uma relação fundamental entre comportamentos de raciocínio iniciais e a capacidade de melhoria, explicando por que alguns modelos de linguagem utilizam efetivamente computação adicional, enquanto outros atingem um platô.
English
Test-time inference has emerged as a powerful paradigm for enabling language
models to ``think'' longer and more carefully about complex challenges, much
like skilled human experts. While reinforcement learning (RL) can drive
self-improvement in language models on verifiable tasks, some models exhibit
substantial gains while others quickly plateau. For instance, we find that
Qwen-2.5-3B far exceeds Llama-3.2-3B under identical RL training for the game
of Countdown. This discrepancy raises a critical question: what intrinsic
properties enable effective self-improvement? We introduce a framework to
investigate this question by analyzing four key cognitive behaviors --
verification, backtracking, subgoal setting, and backward chaining -- that both
expert human problem solvers and successful language models employ. Our study
reveals that Qwen naturally exhibits these reasoning behaviors, whereas Llama
initially lacks them. In systematic experimentation with controlled behavioral
datasets, we find that priming Llama with examples containing these reasoning
behaviors enables substantial improvements during RL, matching or exceeding
Qwen's performance. Importantly, the presence of reasoning behaviors, rather
than correctness of answers, proves to be the critical factor -- models primed
with incorrect solutions containing proper reasoning patterns achieve
comparable performance to those trained on correct solutions. Finally,
leveraging continued pretraining with OpenWebMath data, filtered to amplify
reasoning behaviors, enables the Llama model to match Qwen's self-improvement
trajectory. Our findings establish a fundamental relationship between initial
reasoning behaviors and the capacity for improvement, explaining why some
language models effectively utilize additional computation while others
plateau.Summary
AI-Generated Summary