ChatPaper.aiChatPaper

Schoenfelds Anatomie van Wiskundig Redeneren door Taalmodellen

Schoenfeld's Anatomy of Mathematical Reasoning by Language Models

December 23, 2025
Auteurs: Ming Li, Chenrui Fan, Yize Cheng, Soheil Feizi, Tianyi Zhou
cs.AI

Samenvatting

Grote taalmodellen tonen steeds vaker redeneersporen, maar hun onderliggende cognitieve structuur en stappen blijven moeilijk te identificeren en analyseren voorbij oppervlakkige statistieken. Wij nemen Schoenfelds Episodetheorie over als een inductieve, intermediaire lens en introduceren ThinkARM (Anatomie van Redeneren in Modellen), een schaalbaar raamwerk dat redeneersporen expliciet abstraheert naar functionele redeneerstappen zoals Analyse, Verkenning, Implementatie, Verificatie, etc. Wanneer toegepast op wiskundig probleemoplossen door diverse modellen, onthult deze abstractie reproduceerbare denk dynamieken en structurele verschillen tussen redenerende en niet-redenerende modellen, die niet zichtbaar zijn vanuit token-gebaseerde perspectieven. Wij presenteren verder twee diagnostische casestudies die aantonen dat verkenning functioneert als een kritieke vertakkingsstap die geassocieerd wordt met correctheid, en dat efficiëntiegerichte methoden evaluatieve feedbackstappen selectief onderdrukken in plaats van reacties uniform in te korten. Samen tonen onze resultaten aan dat episode-niveau representaties redeneerstappen expliciet maken, wat systematische analyse mogelijk maakt van hoe redenering gestructureerd, gestabiliseerd en gewijzigd wordt in moderne taalmodellen.
English
Large language models increasingly expose reasoning traces, yet their underlying cognitive structure and steps remain difficult to identify and analyze beyond surface-level statistics. We adopt Schoenfeld's Episode Theory as an inductive, intermediate-scale lens and introduce ThinkARM (Anatomy of Reasoning in Models), a scalable framework that explicitly abstracts reasoning traces into functional reasoning steps such as Analysis, Explore, Implement, Verify, etc. When applied to mathematical problem solving by diverse models, this abstraction reveals reproducible thinking dynamics and structural differences between reasoning and non-reasoning models, which are not apparent from token-level views. We further present two diagnostic case studies showing that exploration functions as a critical branching step associated with correctness, and that efficiency-oriented methods selectively suppress evaluative feedback steps rather than uniformly shortening responses. Together, our results demonstrate that episode-level representations make reasoning steps explicit, enabling systematic analysis of how reasoning is structured, stabilized, and altered in modern language models.
PDF43December 27, 2025