Interpretabilidade Mecanicista da Contagem em Larga Escala em LLMs através de uma Estratégia do Sistema 2

Resumo

Os grandes modelos de linguagem (LLMs), apesar do forte desempenho em problemas matemáticos complexos, exibem limitações sistemáticas em tarefas de contagem. Esta questão surge devido a limites arquiteturais dos transformadores, nos quais a contagem é realizada através das camadas, levando a uma precisão degradada para problemas de contagem maiores devido a restrições de profundidade. Para superar esta limitação, propomos uma estratégia simples, aplicada durante o teste, inspirada nos processos cognitivos do Sistema-2, que decompõe grandes tarefas de contagem em subproblemas menores e independentes que o modelo pode resolver com confiabilidade. Avaliamos esta abordagem utilizando análises de mediação observacionais e causais para compreender o mecanismo subjacente a esta estratégia semelhante ao Sistema-2. Nossa análise mecanicista identifica componentes-chave: contagens latentes são calculadas e armazenadas nas representações finais de cada item, transferidas para etapas intermediárias através de cabeças de atenção dedicadas e agregadas na etapa final para produzir a contagem total. Resultados experimentais demonstram que esta estratégia permite que os LLMs superem as limitações arquiteturais e alcancem alta precisão em tarefas de contagem em larga escala. Este trabalho fornece uma visão mecanicista sobre a contagem do Sistema-2 em LLMs e apresenta uma abordagem generalizável para melhorar e compreender o seu comportamento de raciocínio.

English

Large language models (LLMs), despite strong performance on complex mathematical problems, exhibit systematic limitations in counting tasks. This issue arises from architectural limits of transformers, where counting is performed across layers, leading to degraded precision for larger counting problems due to depth constraints. To address this limitation, we propose a simple test-time strategy inspired by System-2 cognitive processes that decomposes large counting tasks into smaller, independent sub-problems that the model can reliably solve. We evaluate this approach using observational and causal mediation analyses to understand the underlying mechanism of this System-2-like strategy. Our mechanistic analysis identifies key components: latent counts are computed and stored in the final item representations of each part, transferred to intermediate steps via dedicated attention heads, and aggregated in the final stage to produce the total count. Experimental results demonstrate that this strategy enables LLMs to surpass architectural limitations and achieve high accuracy on large-scale counting tasks. This work provides mechanistic insight into System-2 counting in LLMs and presents a generalizable approach for improving and understanding their reasoning behavior.

Interpretabilidade Mecanicista da Contagem em Larga Escala em LLMs através de uma Estratégia do Sistema 2

Mechanistic Interpretability of Large-Scale Counting in LLMs through a System-2 Strategy

Resumo

Support