Kognitive Verhaltensweisen, die selbstverbessernde Denker ermöglichen, oder: Vier Gewohnheiten hochwirksamer STaRs
Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs
March 3, 2025
papers.authors: Kanishk Gandhi, Ayush Chakravarthy, Anikait Singh, Nathan Lile, Noah D. Goodman
cs.AI
papers.abstract
Die Inferenz zur Testzeit hat sich als leistungsstarkes Paradigma etabliert, um Sprachmodelle dazu zu befähigen, länger und sorgfältiger über komplexe Herausforderungen „nachzudenken“, ähnlich wie erfahrene menschliche Experten. Während Reinforcement Learning (RL) die Selbstverbesserung von Sprachmodellen bei überprüfbaren Aufgaben vorantreiben kann, zeigen einige Modelle erhebliche Fortschritte, während andere schnell ein Plateau erreichen. Beispielsweise stellen wir fest, dass Qwen-2.5-3B Llama-3.2-3B bei identischem RL-Training für das Spiel Countdown deutlich übertrifft. Diese Diskrepanz wirft eine entscheidende Frage auf: Welche intrinsischen Eigenschaften ermöglichen eine effektive Selbstverbesserung? Wir stellen ein Framework vor, um diese Frage zu untersuchen, indem wir vier zentrale kognitive Verhaltensweisen analysieren – Verifikation, Rückverfolgung, Unterzielsetzung und Rückwärtsverkettung –, die sowohl erfahrene menschliche Problemlöser als auch erfolgreiche Sprachmodelle anwenden. Unsere Studie zeigt, dass Qwen diese Denkweisen natürlich aufweist, während Llama sie zunächst nicht besitzt. In systematischen Experimenten mit kontrollierten Verhaltensdatensätzen stellen wir fest, dass Llama durch das Vorbereiten mit Beispielen, die diese Denkweisen enthalten, erhebliche Verbesserungen während des RL erreicht und die Leistung von Qwen erreicht oder übertrifft. Entscheidend ist, dass das Vorhandensein von Denkweisen und nicht die Korrektheit der Antworten der kritische Faktor ist – Modelle, die mit falschen Lösungen, aber korrekten Denkmustern vorbereitet werden, erreichen eine vergleichbare Leistung wie solche, die mit korrekten Lösungen trainiert wurden. Schließlich ermöglicht die Nutzung von fortgesetztem Pretraining mit OpenWebMath-Daten, die gefiltert wurden, um Denkweisen zu verstärken, dem Llama-Modell, den Selbstverbesserungspfad von Qwen zu erreichen. Unsere Ergebnisse stellen eine grundlegende Beziehung zwischen anfänglichen Denkweisen und der Fähigkeit zur Verbesserung her und erklären, warum einige Sprachmodelle zusätzliche Rechenleistung effektiv nutzen, während andere ein Plateau erreichen.
English
Test-time inference has emerged as a powerful paradigm for enabling language
models to ``think'' longer and more carefully about complex challenges, much
like skilled human experts. While reinforcement learning (RL) can drive
self-improvement in language models on verifiable tasks, some models exhibit
substantial gains while others quickly plateau. For instance, we find that
Qwen-2.5-3B far exceeds Llama-3.2-3B under identical RL training for the game
of Countdown. This discrepancy raises a critical question: what intrinsic
properties enable effective self-improvement? We introduce a framework to
investigate this question by analyzing four key cognitive behaviors --
verification, backtracking, subgoal setting, and backward chaining -- that both
expert human problem solvers and successful language models employ. Our study
reveals that Qwen naturally exhibits these reasoning behaviors, whereas Llama
initially lacks them. In systematic experimentation with controlled behavioral
datasets, we find that priming Llama with examples containing these reasoning
behaviors enables substantial improvements during RL, matching or exceeding
Qwen's performance. Importantly, the presence of reasoning behaviors, rather
than correctness of answers, proves to be the critical factor -- models primed
with incorrect solutions containing proper reasoning patterns achieve
comparable performance to those trained on correct solutions. Finally,
leveraging continued pretraining with OpenWebMath data, filtered to amplify
reasoning behaviors, enables the Llama model to match Qwen's self-improvement
trajectory. Our findings establish a fundamental relationship between initial
reasoning behaviors and the capacity for improvement, explaining why some
language models effectively utilize additional computation while others
plateau.