Способность к подсчету больших языковых моделей и влияние токенизации.

Аннотация

Трансформеры, основа современных больших моделей языка (LLM), сталкиваются с врожденными архитектурными ограничениями, которые затрудняют их способности к рассуждениям. В отличие от рекуррентных сетей, у Трансформеров отсутствуют рекуррентные связи, что ограничивает их вычисления постоянной глубиной. Это ограничение помещает их в класс сложности TC^0, что теоретически делает их неспособными решать задачи, требующие все более глубоких рассуждений по мере увеличения длины ввода. Подсчет, фундаментальный компонент многих задач рассуждения, также требует линейного роста глубины рассуждений для индуктивного выполнения. В то время как предыдущие исследования установили верхние пределы способности к подсчету в экспертных моделях на основе Трансформеров (т.е. моделях, специально обученных для задач подсчета), эти результаты не применимы напрямую к общего назначения LLM из-за различий в механизмах рассуждения. Недавние работы подчеркнули, как цепочечное рассуждение (CoT) может помочь устранить некоторые архитектурные ограничения Трансформеров в задачах подсчета. Однако мало внимания уделялось роли токенизации в этих моделях. В отличие от экспертных моделей, которые часто используют токенизацию на уровне символов, LLM обычно полагаются на токенизаторы на уровне байтов (BPE), что фундаментально изменяет способ обработки рассуждений. Наша работа исследует влияние токенизации на способности к подсчету LLM, обнаруживая значительные вариации производительности на основе различий в токенизации ввода. Мы предоставляем как теоретические, так и экспериментальные анализы, предлагая понимание того, как выбор токенизации может подорвать теоретическую вычислимость моделей, тем самым вдохновляя на разработку новых методов токенизации для улучшения рассуждений в LLM.

English

Transformers, the backbone of modern large language models (LLMs), face inherent architectural limitations that impede their reasoning capabilities. Unlike recurrent networks, Transformers lack recurrent connections, confining them to constant-depth computation. This restriction places them in the complexity class TC^0, making them theoretically incapable of solving tasks that demand increasingly deep reasoning as input length grows. Counting, a fundamental component of many reasoning tasks, also requires reasoning depth to grow linearly to be performed inductively. While previous studies have established the upper limits of counting ability in Transformer-based expert models (i.e., models specifically trained for counting tasks), these findings do not directly extend to general-purpose LLMs due to differences in reasoning mechanisms. Recent work has highlighted how Chain of Thought (CoT) reasoning can help alleviate some of the architectural limitations of Transformers in counting tasks. However, little attention has been paid to the role of tokenization in these models. Unlike expert models that often use character-level tokenization, LLMs typically rely on byte-level (BPE) tokenizers, which fundamentally alters the way reasoning is processed. Our work investigates the impact of tokenization on the counting abilities of LLMs, uncovering substantial performance variations based on input tokenization differences. We provide both theoretical and experimental analyses, offering insights into how tokenization choices can undermine models' theoretical computability, thereby inspiring the design of new tokenization methods to enhance reasoning in LLMs.

Способность к подсчету больших языковых моделей и влияние токенизации.

Counting Ability of Large Language Models and Impact of Tokenization

Аннотация

Support