ChatPaper.aiChatPaper

Comportamenti cognitivi che abilitano ragionatori auto-miglioranti, ovvero, le quattro abitudini degli STaR altamente efficaci

Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs

March 3, 2025
Autori: Kanishk Gandhi, Ayush Chakravarthy, Anikait Singh, Nathan Lile, Noah D. Goodman
cs.AI

Abstract

L'inferenza al momento del test è emersa come un paradigma potente per consentire ai modelli linguistici di "pensare" più a lungo e con maggiore attenzione a sfide complesse, in modo simile a esperti umani qualificati. Sebbene l'apprendimento per rinforzo (RL) possa guidare l'auto-miglioramento nei modelli linguistici su compiti verificabili, alcuni modelli mostrano guadagni sostanziali mentre altri raggiungono rapidamente un plateau. Ad esempio, scopriamo che Qwen-2.5-3B supera di gran lunga Llama-3.2-3B sotto un addestramento RL identico per il gioco del Countdown. Questa discrepanza solleva una domanda cruciale: quali proprietà intrinseche consentono un efficace auto-miglioramento? Introduciamo un framework per investigare questa questione analizzando quattro comportamenti cognitivi chiave -- verifica, backtracking, definizione di sottobiettivi e concatenazione all'indietro -- che sia i risolutori di problemi umani esperti che i modelli linguistici di successo impiegano. Il nostro studio rivela che Qwen mostra naturalmente questi comportamenti di ragionamento, mentre Llama inizialmente ne è privo. In esperimenti sistematici con dataset comportamentali controllati, scopriamo che il priming di Llama con esempi contenenti questi comportamenti di ragionamento consente miglioramenti sostanziali durante l'RL, eguagliando o superando le prestazioni di Qwen. È importante notare che la presenza di comportamenti di ragionamento, piuttosto che la correttezza delle risposte, si rivela essere il fattore critico -- i modelli preparati con soluzioni errate ma contenenti schemi di ragionamento appropriati raggiungono prestazioni comparabili a quelli addestrati su soluzioni corrette. Infine, sfruttando un pretraining continuo con dati OpenWebMath, filtrati per amplificare i comportamenti di ragionamento, il modello Llama riesce a eguagliare la traiettoria di auto-miglioramento di Qwen. Le nostre scoperte stabiliscono una relazione fondamentale tra i comportamenti di ragionamento iniziali e la capacità di miglioramento, spiegando perché alcuni modelli linguistici utilizzano efficacemente ulteriori risorse computazionali mentre altri raggiungono un plateau.
English
Test-time inference has emerged as a powerful paradigm for enabling language models to ``think'' longer and more carefully about complex challenges, much like skilled human experts. While reinforcement learning (RL) can drive self-improvement in language models on verifiable tasks, some models exhibit substantial gains while others quickly plateau. For instance, we find that Qwen-2.5-3B far exceeds Llama-3.2-3B under identical RL training for the game of Countdown. This discrepancy raises a critical question: what intrinsic properties enable effective self-improvement? We introduce a framework to investigate this question by analyzing four key cognitive behaviors -- verification, backtracking, subgoal setting, and backward chaining -- that both expert human problem solvers and successful language models employ. Our study reveals that Qwen naturally exhibits these reasoning behaviors, whereas Llama initially lacks them. In systematic experimentation with controlled behavioral datasets, we find that priming Llama with examples containing these reasoning behaviors enables substantial improvements during RL, matching or exceeding Qwen's performance. Importantly, the presence of reasoning behaviors, rather than correctness of answers, proves to be the critical factor -- models primed with incorrect solutions containing proper reasoning patterns achieve comparable performance to those trained on correct solutions. Finally, leveraging continued pretraining with OpenWebMath data, filtered to amplify reasoning behaviors, enables the Llama model to match Qwen's self-improvement trajectory. Our findings establish a fundamental relationship between initial reasoning behaviors and the capacity for improvement, explaining why some language models effectively utilize additional computation while others plateau.

Summary

AI-Generated Summary

PDF383March 4, 2025