ChatPaper.aiChatPaper

Capacidade de Contagem de Modelos de Linguagem Grandes e Impacto da Tokenização

Counting Ability of Large Language Models and Impact of Tokenization

October 25, 2024
Autores: Xiang Zhang, Juntai Cao, Chenyu You
cs.AI

Resumo

Os Transformers, a espinha dorsal dos modernos modelos de linguagem de grande escala (LLMs), enfrentam limitações arquiteturais inerentes que prejudicam suas capacidades de raciocínio. Ao contrário das redes recorrentes, os Transformers não possuem conexões recorrentes, o que os limita a uma computação de profundidade constante. Essa restrição os coloca na classe de complexidade TC^0, tornando-os teoricamente incapazes de resolver tarefas que exigem raciocínio profundo à medida que o comprimento de entrada aumenta. A contagem, um componente fundamental de muitas tarefas de raciocínio, também requer um aumento linear na profundidade de raciocínio para ser realizada indutivamente. Embora estudos anteriores tenham estabelecido os limites superiores da capacidade de contagem em modelos especializados baseados em Transformers (ou seja, modelos especificamente treinados para tarefas de contagem), essas descobertas não se estendem diretamente aos LLMs de propósito geral devido a diferenças nos mecanismos de raciocínio. Trabalhos recentes destacaram como o raciocínio Chain of Thought (CoT) pode ajudar a aliviar algumas das limitações arquiteturais dos Transformers em tarefas de contagem. No entanto, pouca atenção foi dada ao papel da tokenização nesses modelos. Ao contrário dos modelos especializados que frequentemente utilizam tokenização a nível de caractere, os LLMs geralmente dependem de tokenizadores a nível de byte (BPE), o que altera fundamentalmente a forma como o raciocínio é processado. Nosso trabalho investiga o impacto da tokenização nas habilidades de contagem dos LLMs, revelando variações significativas de desempenho com base em diferenças na tokenização de entrada. Fornecemos análises teóricas e experimentais, oferecendo insights sobre como as escolhas de tokenização podem minar a computabilidade teórica dos modelos, inspirando assim o desenvolvimento de novos métodos de tokenização para aprimorar o raciocínio nos LLMs.
English
Transformers, the backbone of modern large language models (LLMs), face inherent architectural limitations that impede their reasoning capabilities. Unlike recurrent networks, Transformers lack recurrent connections, confining them to constant-depth computation. This restriction places them in the complexity class TC^0, making them theoretically incapable of solving tasks that demand increasingly deep reasoning as input length grows. Counting, a fundamental component of many reasoning tasks, also requires reasoning depth to grow linearly to be performed inductively. While previous studies have established the upper limits of counting ability in Transformer-based expert models (i.e., models specifically trained for counting tasks), these findings do not directly extend to general-purpose LLMs due to differences in reasoning mechanisms. Recent work has highlighted how Chain of Thought (CoT) reasoning can help alleviate some of the architectural limitations of Transformers in counting tasks. However, little attention has been paid to the role of tokenization in these models. Unlike expert models that often use character-level tokenization, LLMs typically rely on byte-level (BPE) tokenizers, which fundamentally alters the way reasoning is processed. Our work investigates the impact of tokenization on the counting abilities of LLMs, uncovering substantial performance variations based on input tokenization differences. We provide both theoretical and experimental analyses, offering insights into how tokenization choices can undermine models' theoretical computability, thereby inspiring the design of new tokenization methods to enhance reasoning in LLMs.

Summary

AI-Generated Summary

PDF112November 16, 2024