언어 모델의 수학적 추론 구조: 쇤펠드의 분석
Schoenfeld's Anatomy of Mathematical Reasoning by Language Models
December 23, 2025
저자: Ming Li, Chenrui Fan, Yize Cheng, Soheil Feizi, Tianyi Zhou
cs.AI
초록
대규모 언어 모델은 점점 더 추론 흔적을 노출하고 있지만, 그 근본적인 인지 구조와 단계들은 표면적 통계를 넘어서 확인하고 분석하기 어렵습니다. 우리는 쇤펠드의 에피소드 이론을 귀납적 중간 규모 렌즈로 채택하고, 추론 흔적을 분석, 탐색, 실행, 검증 등의 기능적 추론 단계로 명시적으로 추상화하는 확장 가능한 프레임워크인 ThinkARM(모델 내 추론 해부학)을 소개합니다. 다양한 모델의 수학적 문제 해결에 적용했을 때, 이 추상화는 토큰 수준 관점에서는 드러나지 않는 재현 가능한 사고 역학과 추론 모델/비추론 모델 간의 구조적 차이를 보여줍니다. 또한 두 가지 진단 사례 연구를 통해 탐색이 정확도와 관련된 중요한 분기 단계로 기능하며, 효율성 중심 방법이 응답을 균일하게 단축하기보다 평가적 피드백 단계를 선택적으로 억제한다는 점을 제시합니다. 종합적으로, 우리의 결과는 에피소드 수준 표현이 추론 단계를 명시화함으로써 현대 언어 모델에서 추론이 어떻게 구조화, 안정화, 변형되는지에 대한 체계적 분석을 가능하게 함을 입증합니다.
English
Large language models increasingly expose reasoning traces, yet their underlying cognitive structure and steps remain difficult to identify and analyze beyond surface-level statistics. We adopt Schoenfeld's Episode Theory as an inductive, intermediate-scale lens and introduce ThinkARM (Anatomy of Reasoning in Models), a scalable framework that explicitly abstracts reasoning traces into functional reasoning steps such as Analysis, Explore, Implement, Verify, etc. When applied to mathematical problem solving by diverse models, this abstraction reveals reproducible thinking dynamics and structural differences between reasoning and non-reasoning models, which are not apparent from token-level views. We further present two diagnostic case studies showing that exploration functions as a critical branching step associated with correctness, and that efficiency-oriented methods selectively suppress evaluative feedback steps rather than uniformly shortening responses. Together, our results demonstrate that episode-level representations make reasoning steps explicit, enabling systematic analysis of how reasoning is structured, stabilized, and altered in modern language models.