Anatomía del Razonamiento Matemático en Modelos de Lenguaje por Schoenfeld
Schoenfeld's Anatomy of Mathematical Reasoning by Language Models
December 23, 2025
Autores: Ming Li, Chenrui Fan, Yize Cheng, Soheil Feizi, Tianyi Zhou
cs.AI
Resumen
Los modelos de lenguaje a gran escala exponen cada vez más trazas de razonamiento, sin embargo, su estructura cognitiva subyacente y sus pasos siguen siendo difíciles de identificar y analizar más allá de las estadísticas superficiales. Adoptamos la Teoría de Episodios de Schoenfeld como una lente inductiva de escala intermedia e introducimos ThinkARM (Anatomía del Razonamiento en Modelos), un marco escalable que abstrae explícitamente las trazas de razonamiento en pasos funcionales como Análisis, Exploración, Implementación, Verificación, etc. Cuando se aplica a la resolución de problemas matemáticos por parte de modelos diversos, esta abstracción revela dinámicas de pensamiento reproducibles y diferencias estructurales entre modelos que razonan y los que no, las cuales no son aparentes desde las vistas a nivel de token. Además, presentamos dos estudios de caso diagnósticos que muestran que la exploración funciona como un paso crítico de ramificación asociado con la corrección, y que los métodos orientados a la eficiencia suprimen selectivamente los pasos de retroalimentación evaluativa en lugar de acortar las respuestas de manera uniforme. En conjunto, nuestros resultados demuestran que las representaciones a nivel de episodio hacen explícitos los pasos de razonamiento, permitiendo un análisis sistemático de cómo se estructura, estabiliza y altera el razonamiento en los modelos de lenguaje modernos.
English
Large language models increasingly expose reasoning traces, yet their underlying cognitive structure and steps remain difficult to identify and analyze beyond surface-level statistics. We adopt Schoenfeld's Episode Theory as an inductive, intermediate-scale lens and introduce ThinkARM (Anatomy of Reasoning in Models), a scalable framework that explicitly abstracts reasoning traces into functional reasoning steps such as Analysis, Explore, Implement, Verify, etc. When applied to mathematical problem solving by diverse models, this abstraction reveals reproducible thinking dynamics and structural differences between reasoning and non-reasoning models, which are not apparent from token-level views. We further present two diagnostic case studies showing that exploration functions as a critical branching step associated with correctness, and that efficiency-oriented methods selectively suppress evaluative feedback steps rather than uniformly shortening responses. Together, our results demonstrate that episode-level representations make reasoning steps explicit, enabling systematic analysis of how reasoning is structured, stabilized, and altered in modern language models.