Mechanistische Interpretierbarkeit großskaliger Zählvorgänge in LLMs durch eine System-2-Strategie
Mechanistic Interpretability of Large-Scale Counting in LLMs through a System-2 Strategy
January 6, 2026
papers.authors: Hosein Hasani, Mohammadali Banayeeanzade, Ali Nafisi, Sadegh Mohammadian, Fatemeh Askari, Mobin Bagherian, Amirmohammad Izadi, Mahdieh Soleymani Baghshah
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) zeigen trotz starker Leistungen bei komplexen mathematischen Problemen systematische Einschränkungen in Zählaufgaben. Dieses Problem resultiert aus architektonischen Grenzen von Transformern, bei denen das Zählen über mehrere Schichten hinweg erfolgt, was aufgrund von Tiefenbeschränkungen zu einer verminderten Präzision bei größeren Zählproblemen führt. Um diese Einschränkung zu adressieren, schlagen wir eine einfache Testzeit-Strategie vor, die von System-2-Kognitionsprozessen inspiriert ist und große Zählaufgaben in kleinere, unabhängige Teilprobleme zerlegt, die das Modell zuverlässig lösen kann. Wir evaluieren diesen Ansatz mit Beobachtungs- und Kausalmeditationsanalysen, um den zugrundeliegenden Mechanismus dieser System-2-ähnlichen Strategie zu verstehen. Unsere mechanistische Analyse identifiziert Schlüsselkomponenten: Latente Zählwerte werden in den finalen Elementrepräsentationen jedes Teils berechnet und gespeichert, über spezialisierte Attention-Heads an Zwischenschritte übertragen und in der finalen Phase aggregiert, um die Gesamtzahl zu erzeugen. Experimentelle Ergebnisse demonstrieren, dass diese Strategie LLMs befähigt, architektonische Grenzen zu überwinden und hohe Genauigkeit bei großskaligen Zählaufgaben zu erreichen. Diese Arbeit liefert mechanistische Einblicke in System-2-Zählen bei LLMs und präsentiert einen verallgemeinerbaren Ansatz zur Verbesserung und zum Verständnis ihres Schlussfolgerungsverhaltens.
English
Large language models (LLMs), despite strong performance on complex mathematical problems, exhibit systematic limitations in counting tasks. This issue arises from architectural limits of transformers, where counting is performed across layers, leading to degraded precision for larger counting problems due to depth constraints. To address this limitation, we propose a simple test-time strategy inspired by System-2 cognitive processes that decomposes large counting tasks into smaller, independent sub-problems that the model can reliably solve. We evaluate this approach using observational and causal mediation analyses to understand the underlying mechanism of this System-2-like strategy. Our mechanistic analysis identifies key components: latent counts are computed and stored in the final item representations of each part, transferred to intermediate steps via dedicated attention heads, and aggregated in the final stage to produce the total count. Experimental results demonstrate that this strategy enables LLMs to surpass architectural limitations and achieve high accuracy on large-scale counting tasks. This work provides mechanistic insight into System-2 counting in LLMs and presents a generalizable approach for improving and understanding their reasoning behavior.