Interpretabilità Meccanicistica del Conteggio su Larga Scala nei LLM attraverso una Strategia di Sistema 2

Abstract

I modelli linguistici di grandi dimensioni (LLM), nonostante le prestazioni elevate su problemi matematici complessi, mostrano limitazioni sistematiche nelle attività di conteggio. Questa problematica deriva dai limiti architetturali dei transformer, dove il conteggio viene eseguito attraverso i layer, portando a una precisione degradata per problemi di conteggio più grandi a causa dei vincoli di profondità. Per affrontare questa limitazione, proponiamo una semplice strategia al momento del test, ispirata ai processi cognitivi del Sistema-2, che scompone i compiti di conteggio di grandi dimensioni in sottoproblemi più piccoli e indipendenti che il modello può risolvere in modo affidabile. Valutiamo questo approccio utilizzando analisi di mediazione osservazionale e causale per comprendere il meccanismo sottostante di questa strategia simile al Sistema-2. La nostra analisi meccanicistica identifica componenti chiave: i conteggi latenti vengono calcolati e memorizzati nelle rappresentazioni finali degli elementi di ogni parte, trasferiti ai passaggi intermedi tramite specifici attention head, e aggregati nella fase finale per produrre il conteggio totale. I risultati sperimentali dimostrano che questa strategia consente agli LLM di superare i limiti architetturali e raggiungere un'elevata accuratezza in compiti di conteggio su larga scala. Questo lavoro fornisce una comprensione meccanicistica del conteggio di tipo Sistema-2 negli LLM e presenta un approccio generalizzabile per migliorare e comprendere il loro comportamento di ragionamento.

English

Large language models (LLMs), despite strong performance on complex mathematical problems, exhibit systematic limitations in counting tasks. This issue arises from architectural limits of transformers, where counting is performed across layers, leading to degraded precision for larger counting problems due to depth constraints. To address this limitation, we propose a simple test-time strategy inspired by System-2 cognitive processes that decomposes large counting tasks into smaller, independent sub-problems that the model can reliably solve. We evaluate this approach using observational and causal mediation analyses to understand the underlying mechanism of this System-2-like strategy. Our mechanistic analysis identifies key components: latent counts are computed and stored in the final item representations of each part, transferred to intermediate steps via dedicated attention heads, and aggregated in the final stage to produce the total count. Experimental results demonstrate that this strategy enables LLMs to surpass architectural limitations and achieve high accuracy on large-scale counting tasks. This work provides mechanistic insight into System-2 counting in LLMs and presents a generalizable approach for improving and understanding their reasoning behavior.

Interpretabilità Meccanicistica del Conteggio su Larga Scala nei LLM attraverso una Strategia di Sistema 2

Mechanistic Interpretability of Large-Scale Counting in LLMs through a System-2 Strategy

Abstract

Support