ChatPaper.aiChatPaper

Comportements cognitifs permettant aux raisonneurs de s'améliorer par eux-mêmes, ou, les quatre habitudes des STaRs hautement efficaces

Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs

March 3, 2025
papers.authors: Kanishk Gandhi, Ayush Chakravarthy, Anikait Singh, Nathan Lile, Noah D. Goodman
cs.AI

papers.abstract

L'inférence au moment du test est apparue comme un paradigme puissant permettant aux modèles de langage de « réfléchir » plus longtemps et plus attentivement à des défis complexes, à l'instar d'experts humains qualifiés. Bien que l'apprentissage par renforcement (RL) puisse favoriser l'auto-amélioration des modèles de langage sur des tâches vérifiables, certains modèles montrent des gains substantiels tandis que d'autres atteignent rapidement un plateau. Par exemple, nous constatons que Qwen-2.5-3B surpasse largement Llama-3.2-3B sous un entraînement RL identique pour le jeu de Countdown. Cette divergence soulève une question cruciale : quelles propriétés intrinsèques permettent une auto-amélioration efficace ? Nous introduisons un cadre pour explorer cette question en analysant quatre comportements cognitifs clés — vérification, retour en arrière, définition de sous-objectifs et chaînage arrière — que les résolveurs de problèmes humains experts et les modèles de langage performants utilisent. Notre étude révèle que Qwen manifeste naturellement ces comportements de raisonnement, tandis que Llama en manque initialement. Dans des expérimentations systématiques avec des ensembles de données comportementales contrôlées, nous constatons que l'amorçage de Llama avec des exemples contenant ces comportements de raisonnement permet des améliorations substantielles pendant le RL, égalant ou dépassant les performances de Qwen. Fait important, la présence de comportements de raisonnement, plutôt que la justesse des réponses, s'avère être le facteur critique — les modèles amorcés avec des solutions incorrectes mais contenant des schémas de raisonnement appropriés atteignent des performances comparables à ceux entraînés sur des solutions correctes. Enfin, en exploitant un pré-entraînement continu avec les données d'OpenWebMath, filtrées pour amplifier les comportements de raisonnement, le modèle Llama parvient à égaler la trajectoire d'auto-amélioration de Qwen. Nos résultats établissent une relation fondamentale entre les comportements de raisonnement initiaux et la capacité d'amélioration, expliquant pourquoi certains modèles de langage utilisent efficacement des ressources de calcul supplémentaires tandis que d'autres atteignent un plateau.
English
Test-time inference has emerged as a powerful paradigm for enabling language models to ``think'' longer and more carefully about complex challenges, much like skilled human experts. While reinforcement learning (RL) can drive self-improvement in language models on verifiable tasks, some models exhibit substantial gains while others quickly plateau. For instance, we find that Qwen-2.5-3B far exceeds Llama-3.2-3B under identical RL training for the game of Countdown. This discrepancy raises a critical question: what intrinsic properties enable effective self-improvement? We introduce a framework to investigate this question by analyzing four key cognitive behaviors -- verification, backtracking, subgoal setting, and backward chaining -- that both expert human problem solvers and successful language models employ. Our study reveals that Qwen naturally exhibits these reasoning behaviors, whereas Llama initially lacks them. In systematic experimentation with controlled behavioral datasets, we find that priming Llama with examples containing these reasoning behaviors enables substantial improvements during RL, matching or exceeding Qwen's performance. Importantly, the presence of reasoning behaviors, rather than correctness of answers, proves to be the critical factor -- models primed with incorrect solutions containing proper reasoning patterns achieve comparable performance to those trained on correct solutions. Finally, leveraging continued pretraining with OpenWebMath data, filtered to amplify reasoning behaviors, enables the Llama model to match Qwen's self-improvement trajectory. Our findings establish a fundamental relationship between initial reasoning behaviors and the capacity for improvement, explaining why some language models effectively utilize additional computation while others plateau.
PDF393March 4, 2025