Анатомия математических рассуждений языковых моделей по Шенфилду
Schoenfeld's Anatomy of Mathematical Reasoning by Language Models
December 23, 2025
Авторы: Ming Li, Chenrui Fan, Yize Cheng, Soheil Feizi, Tianyi Zhou
cs.AI
Аннотация
Крупные языковые модели все чаще демонстрируют траектории рассуждений, однако их глубинная когнитивная структура и отдельные шаги остаются трудными для идентификации и анализа за пределами поверхностной статистики. Мы применяем теорию эпизодов Шенфилда в качестве индуктивной линзы промежуточного масштаба и представляем ThinkARM (Анатомия Рассуждений в Моделях) — масштабируемую структуру, которая явно абстрагирует траектории рассуждений в функциональные шаги, такие как Анализ, Исследование, Реализация, Проверка и т.д. Применение этого подхода к решению математических задач разнообразными моделями выявляет воспроизводимую динамику мышления и структурные различия между рассуждающими и не-рассуждающими моделями, которые не очевидны на уровне токенов. Мы также представляем два диагностических кейс-стади, показывающих, что исследование функционирует как критический шаг ветвления, связанный с корректностью решения, а методы, ориентированные на эффективность, выборочно подавляют оценочные шаги обратной связи, а не равномерно сокращают ответы. В совокупности наши результаты демонстрируют, что представления на уровне эпизодов делают шаги рассуждения явными, позволяя проводить систематический анализ того, как рассуждение структурируется, стабилизируется и модифицируется в современных языковых моделях.
English
Large language models increasingly expose reasoning traces, yet their underlying cognitive structure and steps remain difficult to identify and analyze beyond surface-level statistics. We adopt Schoenfeld's Episode Theory as an inductive, intermediate-scale lens and introduce ThinkARM (Anatomy of Reasoning in Models), a scalable framework that explicitly abstracts reasoning traces into functional reasoning steps such as Analysis, Explore, Implement, Verify, etc. When applied to mathematical problem solving by diverse models, this abstraction reveals reproducible thinking dynamics and structural differences between reasoning and non-reasoning models, which are not apparent from token-level views. We further present two diagnostic case studies showing that exploration functions as a critical branching step associated with correctness, and that efficiency-oriented methods selectively suppress evaluative feedback steps rather than uniformly shortening responses. Together, our results demonstrate that episode-level representations make reasoning steps explicit, enabling systematic analysis of how reasoning is structured, stabilized, and altered in modern language models.