A Anatomia do Raciocínio Matemático de Schoenfeld por Modelos de Linguagem
Schoenfeld's Anatomy of Mathematical Reasoning by Language Models
December 23, 2025
Autores: Ming Li, Chenrui Fan, Yize Cheng, Soheil Feizi, Tianyi Zhou
cs.AI
Resumo
Os modelos de linguagem de grande porte expõem cada vez mais traços de raciocínio, contudo, a sua estrutura cognitiva subjacente e as suas etapas permanecem difíceis de identificar e analisar para além de estatísticas superficiais. Adotamos a Teoria dos Episódios de Schoenfeld como uma lente indutiva de escala intermédia e introduzimos o ThinkARM (Anatomia do Raciocínio em Modelos), um quadro escalável que abstrai explicitamente os traços de raciocínio em etapas de raciocínio funcionais, como Análise, Exploração, Implementação, Verificação, etc. Quando aplicada à resolução de problemas matemáticos por diversos modelos, esta abstração revela dinâmicas de pensamento reproduzíveis e diferenças estruturais entre modelos com e sem capacidades de raciocínio, que não são aparentes numa visão ao nível dos *tokens*. Apresentamos ainda dois estudos de caso de diagnóstico que mostram que a exploração funciona como uma etapa crítica de ramificação associada à correção, e que os métodos orientados para a eficiência suprimem seletivamente etapas de *feedback* avaliativo em vez de encurtarem as respostas de forma uniforme. Em conjunto, os nossos resultados demonstram que as representações ao nível do episódio tornam as etapas de raciocínio explícitas, permitindo uma análise sistemática de como o raciocínio é estruturado, estabilizado e alterado nos modelos de linguagem modernos.
English
Large language models increasingly expose reasoning traces, yet their underlying cognitive structure and steps remain difficult to identify and analyze beyond surface-level statistics. We adopt Schoenfeld's Episode Theory as an inductive, intermediate-scale lens and introduce ThinkARM (Anatomy of Reasoning in Models), a scalable framework that explicitly abstracts reasoning traces into functional reasoning steps such as Analysis, Explore, Implement, Verify, etc. When applied to mathematical problem solving by diverse models, this abstraction reveals reproducible thinking dynamics and structural differences between reasoning and non-reasoning models, which are not apparent from token-level views. We further present two diagnostic case studies showing that exploration functions as a critical branching step associated with correctness, and that efficiency-oriented methods selectively suppress evaluative feedback steps rather than uniformly shortening responses. Together, our results demonstrate that episode-level representations make reasoning steps explicit, enabling systematic analysis of how reasoning is structured, stabilized, and altered in modern language models.