L'Anatomia del Ragionamento Matematico nei Modelli Linguistici di Schoenfeld

Abstract

I modelli linguistici di grandi dimensioni espongono sempre più tracce di ragionamento, ma la loro struttura cognitiva sottostante e i passaggi rimangono difficili da identificare e analizzare oltre le statistiche superficiali. Adottiamo la Teoria degli Episodi di Schoenfeld come lente induttiva a scala intermedia e introduciamo ThinkARM (Anatomia del Ragionamento nei Modelli), un framework scalabile che astrae esplicitamente le tracce di ragionamento in passaggi funzionali come Analisi, Esplorazione, Implementazione, Verifica, ecc. Applicata alla risoluzione di problemi matematici da parte di modelli diversi, questa astrazione rivela dinamiche di pensiero riproducibili e differenze strutturali tra modelli con e senza ragionamento, che non sono evidenti dalle visualizzazioni a livello di token. Presentiamo inoltre due studi di caso diagnostici che mostrano come l'esplorazione funzioni da passaggio di diramazione critico associato alla correttezza, e come i metodi orientati all'efficienza sopprimano selettivamente i passaggi di feedback valutativo piuttosto che abbreviare uniformemente le risposte. Nel complesso, i nostri risultati dimostrano che le rappresentazioni a livello di episodio rendono espliciti i passaggi del ragionamento, consentendo un'analisi sistematica di come il ragionamento sia strutturato, stabilizzato e alterato nei moderni modelli linguistici.

English

Large language models increasingly expose reasoning traces, yet their underlying cognitive structure and steps remain difficult to identify and analyze beyond surface-level statistics. We adopt Schoenfeld's Episode Theory as an inductive, intermediate-scale lens and introduce ThinkARM (Anatomy of Reasoning in Models), a scalable framework that explicitly abstracts reasoning traces into functional reasoning steps such as Analysis, Explore, Implement, Verify, etc. When applied to mathematical problem solving by diverse models, this abstraction reveals reproducible thinking dynamics and structural differences between reasoning and non-reasoning models, which are not apparent from token-level views. We further present two diagnostic case studies showing that exploration functions as a critical branching step associated with correctness, and that efficiency-oriented methods selectively suppress evaluative feedback steps rather than uniformly shortening responses. Together, our results demonstrate that episode-level representations make reasoning steps explicit, enabling systematic analysis of how reasoning is structured, stabilized, and altered in modern language models.

L'Anatomia del Ragionamento Matematico nei Modelli Linguistici di Schoenfeld

Schoenfeld's Anatomy of Mathematical Reasoning by Language Models

Abstract

Support