Schoenfelds Anatomie mathematischen Denkens durch Sprachmodelle
Schoenfeld's Anatomy of Mathematical Reasoning by Language Models
December 23, 2025
papers.authors: Ming Li, Chenrui Fan, Yize Cheng, Soheil Feizi, Tianyi Zhou
cs.AI
papers.abstract
Große Sprachmodelle legen zunehmend Denkspuren offen, doch ihre zugrundeliegende kognitive Struktur und einzelne Schritte bleiben jenseits oberflächlicher Statistiken schwer zu identifizieren und zu analysieren. Wir adaptieren Schoenfelds Episodentheorie als induktive, mittlermaßstäbliche Betrachtungsebene und führen ThinkARM (Anatomy of Reasoning in Models) ein, einen skalierbaren Rahmen, der Denkspuren explizit in funktionale Denkschritte abstrahiert, wie Analyse, Exploration, Implementierung, Verifikation etc. Bei der Anwendung auf mathematische Problemlösungen verschiedener Modelle zeigt diese Abstraktion reproduzierbare Denkdynamiken und strukturelle Unterschiede zwischen Modellen mit und ohne Reasoning-Fähigkeiten, die auf Token-Ebene nicht ersichtlich sind. Wir präsentieren weiterhin zwei diagnostische Fallstudien, die zeigen, dass Exploration als kritischer Verzweigungsschritt fungiert, der mit Korrektheit assoziiert ist, und dass effizienzorientierte Methoden evaluative Feedback-Schritte selektiv unterdrücken anstatt Antworten gleichmäßig zu verkürzen. Zusammengenommen demonstrieren unsere Ergebnisse, dass Episoden-basierte Repräsentationen Denkschritte explizit machen und eine systematische Analyse ermöglichen, wie Reasoning in modernen Sprachmodellen strukturiert, stabilisiert und verändert wird.
English
Large language models increasingly expose reasoning traces, yet their underlying cognitive structure and steps remain difficult to identify and analyze beyond surface-level statistics. We adopt Schoenfeld's Episode Theory as an inductive, intermediate-scale lens and introduce ThinkARM (Anatomy of Reasoning in Models), a scalable framework that explicitly abstracts reasoning traces into functional reasoning steps such as Analysis, Explore, Implement, Verify, etc. When applied to mathematical problem solving by diverse models, this abstraction reveals reproducible thinking dynamics and structural differences between reasoning and non-reasoning models, which are not apparent from token-level views. We further present two diagnostic case studies showing that exploration functions as a critical branching step associated with correctness, and that efficiency-oriented methods selectively suppress evaluative feedback steps rather than uniformly shortening responses. Together, our results demonstrate that episode-level representations make reasoning steps explicit, enabling systematic analysis of how reasoning is structured, stabilized, and altered in modern language models.