Механистическая интерпретируемость крупномасштабного счета в больших языковых моделях с помощью стратегии Системы 2
Mechanistic Interpretability of Large-Scale Counting in LLMs through a System-2 Strategy
January 6, 2026
Авторы: Hosein Hasani, Mohammadali Banayeeanzade, Ali Nafisi, Sadegh Mohammadian, Fatemeh Askari, Mobin Bagherian, Amirmohammad Izadi, Mahdieh Soleymani Baghshah
cs.AI
Аннотация
Крупные языковые модели (LLM), демонстрируя высокую производительность при решении сложных математических задач, имеют систематические ограничения в заданиях на счет. Эта проблема возникает из-за архитектурных ограничений трансформеров, где счет выполняется послойно, что приводит к снижению точности для задач с большими числами из-за ограничений по глубине. Чтобы устранить это ограничение, мы предлагаем простую стратегию на этапе тестирования, вдохновленную когнитивными процессами Системы 2, которая разбивает большие задачи счета на меньшие, независимые подзадачи, которые модель может надежно решать. Мы оцениваем этот подход с помощью обсервационного и каузального медиационного анализов, чтобы понять лежащий в основе механизм этой стратегии, подобной Системе 2. Наш механистический анализ выявляет ключевые компоненты: скрытые подсчеты вычисляются и сохраняются в финальных представлениях каждого элемента, передаются на промежуточные шаги через специальные attention-головы и агрегируются на финальном этапе для получения общего результата. Экспериментальные результаты демонстрируют, что данная стратегия позволяет LLM преодолевать архитектурные ограничения и достигать высокой точности в задачах масштабного счета. Эта работа дает механистическое понимание счета по принципу Системы 2 в LLM и представляет обобщаемый подход для улучшения и понимания их рассуждающего поведения.
English
Large language models (LLMs), despite strong performance on complex mathematical problems, exhibit systematic limitations in counting tasks. This issue arises from architectural limits of transformers, where counting is performed across layers, leading to degraded precision for larger counting problems due to depth constraints. To address this limitation, we propose a simple test-time strategy inspired by System-2 cognitive processes that decomposes large counting tasks into smaller, independent sub-problems that the model can reliably solve. We evaluate this approach using observational and causal mediation analyses to understand the underlying mechanism of this System-2-like strategy. Our mechanistic analysis identifies key components: latent counts are computed and stored in the final item representations of each part, transferred to intermediate steps via dedicated attention heads, and aggregated in the final stage to produce the total count. Experimental results demonstrate that this strategy enables LLMs to surpass architectural limitations and achieve high accuracy on large-scale counting tasks. This work provides mechanistic insight into System-2 counting in LLMs and presents a generalizable approach for improving and understanding their reasoning behavior.