言語モデルによる数学的推論の解剖学:ショーンフェルドの視点から
Schoenfeld's Anatomy of Mathematical Reasoning by Language Models
December 23, 2025
著者: Ming Li, Chenrui Fan, Yize Cheng, Soheil Feizi, Tianyi Zhou
cs.AI
要旨
大規模言語モデルは推論過程を明示することが増えているが、その基盤となる認知的構造や個々のステップは、表面的な統計情報を超えて特定・分析することが依然として困難である。本研究では、Schoenfeldのエピソード理論を帰納的で中間スケールの分析レンズとして採用し、ThinkARM(推論の解剖学)というスケーラブルなフレームワークを提案する。この枠組みは推論過程を「分析」「探索」「実装」「検証」などの機能的推論ステップに明示的に抽象化する。数学的問題解決に多様なモデルを適用した結果、この抽象化により再現性のある思考ダイナミクスや、推論モデルと非推論モデルの間の構造的差異が明らかとなり、これらはトークンレベルの視点では見えないものであった。さらに2つの診断的ケーススタディを示し、探索が正答率に関連する重要な分岐ステップとして機能すること、および効率性を重視する手法が応答を一律に短縮するのではなく評価的フィードバックステップを選択的に抑制することを明らかにする。総合的に、我々の結果はエピソードレベルの表現が推論ステップを明示化し、現代の言語モデルにおいて推論がどのように構造化・安定化・変更されるかの体系的分析を可能にすることを実証している。
English
Large language models increasingly expose reasoning traces, yet their underlying cognitive structure and steps remain difficult to identify and analyze beyond surface-level statistics. We adopt Schoenfeld's Episode Theory as an inductive, intermediate-scale lens and introduce ThinkARM (Anatomy of Reasoning in Models), a scalable framework that explicitly abstracts reasoning traces into functional reasoning steps such as Analysis, Explore, Implement, Verify, etc. When applied to mathematical problem solving by diverse models, this abstraction reveals reproducible thinking dynamics and structural differences between reasoning and non-reasoning models, which are not apparent from token-level views. We further present two diagnostic case studies showing that exploration functions as a critical branching step associated with correctness, and that efficiency-oriented methods selectively suppress evaluative feedback steps rather than uniformly shortening responses. Together, our results demonstrate that episode-level representations make reasoning steps explicit, enabling systematic analysis of how reasoning is structured, stabilized, and altered in modern language models.