Interpretabilidad Mecanicista del Conteo a Gran Escala en LLMs mediante una Estrategia de Sistema-2
Mechanistic Interpretability of Large-Scale Counting in LLMs through a System-2 Strategy
January 6, 2026
Autores: Hosein Hasani, Mohammadali Banayeeanzade, Ali Nafisi, Sadegh Mohammadian, Fatemeh Askari, Mobin Bagherian, Amirmohammad Izadi, Mahdieh Soleymani Baghshah
cs.AI
Resumen
Los modelos de lenguaje grandes (LLM), a pesar de su sólido rendimiento en problemas matemáticos complejos, exhiben limitaciones sistemáticas en tareas de conteo. Este problema surge de las limitaciones arquitectónicas de los transformadores, donde el conteo se realiza a través de las capas, lo que conduce a una precisión degradada para problemas de conteo más grandes debido a las restricciones de profundidad. Para abordar esta limitación, proponemos una estrategia simple en tiempo de prueba, inspirada en los procesos cognitivos del Sistema-2, que descompone las tareas de conteo grandes en subproblemas más pequeños e independientes que el modelo puede resolver de manera confiable. Evaluamos este enfoque utilizando análisis de mediación observacional y causal para comprender el mecanismo subyacente de esta estrategia similar al Sistema-2. Nuestro análisis mecanicista identifica componentes clave: los conteos latentes se calculan y almacenan en las representaciones finales de cada elemento, se transfieren a pasos intermedios a través de cabezas de atención dedicadas y se agregan en la etapa final para producir el conteo total. Los resultados experimentales demuestran que esta estrategia permite a los LLM superar las limitaciones arquitectónicas y lograr una alta precisión en tareas de conteo a gran escala. Este trabajo proporciona una perspectiva mecanicista sobre el conteo del Sistema-2 en los LLM y presenta un enfoque generalizable para mejorar y comprender su comportamiento de razonamiento.
English
Large language models (LLMs), despite strong performance on complex mathematical problems, exhibit systematic limitations in counting tasks. This issue arises from architectural limits of transformers, where counting is performed across layers, leading to degraded precision for larger counting problems due to depth constraints. To address this limitation, we propose a simple test-time strategy inspired by System-2 cognitive processes that decomposes large counting tasks into smaller, independent sub-problems that the model can reliably solve. We evaluate this approach using observational and causal mediation analyses to understand the underlying mechanism of this System-2-like strategy. Our mechanistic analysis identifies key components: latent counts are computed and stored in the final item representations of each part, transferred to intermediate steps via dedicated attention heads, and aggregated in the final stage to produce the total count. Experimental results demonstrate that this strategy enables LLMs to surpass architectural limitations and achieve high accuracy on large-scale counting tasks. This work provides mechanistic insight into System-2 counting in LLMs and presents a generalizable approach for improving and understanding their reasoning behavior.