Comportamenti cognitivi che abilitano ragionatori auto-miglioranti, ovvero, le quattro abitudini degli STaR altamente efficaci
Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs
March 3, 2025
Autori: Kanishk Gandhi, Ayush Chakravarthy, Anikait Singh, Nathan Lile, Noah D. Goodman
cs.AI
Abstract
L'inferenza al momento del test è emersa come un paradigma potente per consentire ai modelli linguistici di "pensare" più a lungo e con maggiore attenzione a sfide complesse, in modo simile a esperti umani qualificati. Sebbene l'apprendimento per rinforzo (RL) possa guidare l'auto-miglioramento nei modelli linguistici su compiti verificabili, alcuni modelli mostrano guadagni sostanziali mentre altri raggiungono rapidamente un plateau. Ad esempio, scopriamo che Qwen-2.5-3B supera di gran lunga Llama-3.2-3B sotto un addestramento RL identico per il gioco del Countdown. Questa discrepanza solleva una domanda cruciale: quali proprietà intrinseche consentono un efficace auto-miglioramento? Introduciamo un framework per investigare questa questione analizzando quattro comportamenti cognitivi chiave -- verifica, backtracking, definizione di sottobiettivi e concatenazione all'indietro -- che sia i risolutori di problemi umani esperti che i modelli linguistici di successo impiegano. Il nostro studio rivela che Qwen mostra naturalmente questi comportamenti di ragionamento, mentre Llama inizialmente ne è privo. In esperimenti sistematici con dataset comportamentali controllati, scopriamo che il priming di Llama con esempi contenenti questi comportamenti di ragionamento consente miglioramenti sostanziali durante l'RL, eguagliando o superando le prestazioni di Qwen. È importante notare che la presenza di comportamenti di ragionamento, piuttosto che la correttezza delle risposte, si rivela essere il fattore critico -- i modelli preparati con soluzioni errate ma contenenti schemi di ragionamento appropriati raggiungono prestazioni comparabili a quelli addestrati su soluzioni corrette. Infine, sfruttando un pretraining continuo con dati OpenWebMath, filtrati per amplificare i comportamenti di ragionamento, il modello Llama riesce a eguagliare la traiettoria di auto-miglioramento di Qwen. Le nostre scoperte stabiliscono una relazione fondamentale tra i comportamenti di ragionamento iniziali e la capacità di miglioramento, spiegando perché alcuni modelli linguistici utilizzano efficacemente ulteriori risorse computazionali mentre altri raggiungono un plateau.
English
Test-time inference has emerged as a powerful paradigm for enabling language
models to ``think'' longer and more carefully about complex challenges, much
like skilled human experts. While reinforcement learning (RL) can drive
self-improvement in language models on verifiable tasks, some models exhibit
substantial gains while others quickly plateau. For instance, we find that
Qwen-2.5-3B far exceeds Llama-3.2-3B under identical RL training for the game
of Countdown. This discrepancy raises a critical question: what intrinsic
properties enable effective self-improvement? We introduce a framework to
investigate this question by analyzing four key cognitive behaviors --
verification, backtracking, subgoal setting, and backward chaining -- that both
expert human problem solvers and successful language models employ. Our study
reveals that Qwen naturally exhibits these reasoning behaviors, whereas Llama
initially lacks them. In systematic experimentation with controlled behavioral
datasets, we find that priming Llama with examples containing these reasoning
behaviors enables substantial improvements during RL, matching or exceeding
Qwen's performance. Importantly, the presence of reasoning behaviors, rather
than correctness of answers, proves to be the critical factor -- models primed
with incorrect solutions containing proper reasoning patterns achieve
comparable performance to those trained on correct solutions. Finally,
leveraging continued pretraining with OpenWebMath data, filtered to amplify
reasoning behaviors, enables the Llama model to match Qwen's self-improvement
trajectory. Our findings establish a fundamental relationship between initial
reasoning behaviors and the capacity for improvement, explaining why some
language models effectively utilize additional computation while others
plateau.Summary
AI-Generated Summary