Cognitieve Gedragingen die Zelfverbeterende Redeneerders Mogelijk Maken, ofwel, Vier Gewoonten van Zeer Effectieve STaRs

Samenvatting

Test-time inference is naar voren gekomen als een krachtig paradigma om taalmodellen in staat te stellen langer en zorgvuldiger na te denken over complexe uitdagingen, vergelijkbaar met ervaren menselijke experts. Hoewel reinforcement learning (RL) zelfverbetering in taalmodellen kan stimuleren bij verifieerbare taken, laten sommige modellen aanzienlijke vooruitgang zien terwijl andere snel een plateau bereiken. Zo ontdekken we dat Qwen-2.5-3B Llama-3.2-3B ver overtreft onder identieke RL-training voor het spel Countdown. Dit verschil roept een kritische vraag op: welke intrinsieke eigenschappen maken effectieve zelfverbetering mogelijk? We introduceren een raamwerk om deze vraag te onderzoeken door vier belangrijke cognitieve gedragingen te analyseren — verificatie, terugspoelen, subdoelstellingen bepalen en achterwaarts redeneren — die zowel ervaren menselijke probleemoplossers als succesvolle taalmodellen toepassen. Onze studie toont aan dat Qwen van nature deze redeneergedragingen vertoont, terwijl Llama deze aanvankelijk mist. In systematische experimenten met gecontroleerde gedragsdatasets ontdekken we dat Llama voorbereiden met voorbeelden die deze redeneergedragingen bevatten, aanzienlijke verbeteringen mogelijk maakt tijdens RL, waardoor het de prestaties van Qwen evenaart of overtreft. Belangrijk is dat de aanwezigheid van redeneergedragingen, in plaats van de juistheid van antwoorden, de kritieke factor blijkt te zijn — modellen die zijn voorbereid met incorrecte oplossingen die de juiste redeneerpatronen bevatten, bereiken vergelijkbare prestaties als modellen die zijn getraind op correcte oplossingen. Ten slotte maakt het gebruik van voortgezette pretraining met OpenWebMath-data, gefilterd om redeneergedragingen te versterken, het mogelijk dat het Llama-model de zelfverbeteringstrajectorie van Qwen evenaart. Onze bevindingen leggen een fundamentele relatie vast tussen initiële redeneergedragingen en het vermogen tot verbetering, wat verklaart waarom sommige taalmodellen effectief gebruik maken van extra rekenkracht terwijl andere een plateau bereiken.

English

Test-time inference has emerged as a powerful paradigm for enabling language models to ``think'' longer and more carefully about complex challenges, much like skilled human experts. While reinforcement learning (RL) can drive self-improvement in language models on verifiable tasks, some models exhibit substantial gains while others quickly plateau. For instance, we find that Qwen-2.5-3B far exceeds Llama-3.2-3B under identical RL training for the game of Countdown. This discrepancy raises a critical question: what intrinsic properties enable effective self-improvement? We introduce a framework to investigate this question by analyzing four key cognitive behaviors -- verification, backtracking, subgoal setting, and backward chaining -- that both expert human problem solvers and successful language models employ. Our study reveals that Qwen naturally exhibits these reasoning behaviors, whereas Llama initially lacks them. In systematic experimentation with controlled behavioral datasets, we find that priming Llama with examples containing these reasoning behaviors enables substantial improvements during RL, matching or exceeding Qwen's performance. Importantly, the presence of reasoning behaviors, rather than correctness of answers, proves to be the critical factor -- models primed with incorrect solutions containing proper reasoning patterns achieve comparable performance to those trained on correct solutions. Finally, leveraging continued pretraining with OpenWebMath data, filtered to amplify reasoning behaviors, enables the Llama model to match Qwen's self-improvement trajectory. Our findings establish a fundamental relationship between initial reasoning behaviors and the capacity for improvement, explaining why some language models effectively utilize additional computation while others plateau.

Cognitieve Gedragingen die Zelfverbeterende Redeneerders Mogelijk Maken, ofwel, Vier Gewoonten van Zeer Effectieve STaRs

Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs

Samenvatting

Support