TokSuite: Medindo o Impacto da Escolha do Tokenizador no Comportamento de Modelos de Linguagem

Resumo

Os tokenizadores fornecem a base fundamental através da qual o texto é representado e processado por modelos de linguagem (ML). Apesar da importância da tokenização, seu papel no desempenho e comportamento dos ML é pouco compreendido devido ao desafio de medir o impacto da tokenização de forma isolada. Para suprir esta necessidade, apresentamos o TokSuite, uma coleção de modelos e um benchmark que apoia a investigação sobre a influência da tokenização nos ML. Especificamente, treinamos catorze modelos que utilizam diferentes tokenizadores, mas que são idênticos em todos os outros aspetos, usando a mesma arquitetura, conjunto de dados, orçamento de treino e inicialização. Adicionalmente, curamos e disponibilizamos um novo benchmark que mede especificamente o desempenho do modelo sujeito a perturbações do mundo real que provavelmente influenciam a tokenização. Em conjunto, o TokSuite permite uma dissociação robusta da influência do tokenizador de um modelo, apoiando uma série de descobertas novas que elucidam os benefícios e limitações respetivos de uma ampla gama de tokenizadores populares.

English

Tokenizers provide the fundamental basis through which text is represented and processed by language models (LMs). Despite the importance of tokenization, its role in LM performance and behavior is poorly understood due to the challenge of measuring the impact of tokenization in isolation. To address this need, we present TokSuite, a collection of models and a benchmark that supports research into tokenization's influence on LMs. Specifically, we train fourteen models that use different tokenizers but are otherwise identical using the same architecture, dataset, training budget, and initialization. Additionally, we curate and release a new benchmark that specifically measures model performance subject to real-world perturbations that are likely to influence tokenization. Together, TokSuite allows robust decoupling of the influence of a model's tokenizer, supporting a series of novel findings that elucidate the respective benefits and shortcomings of a wide range of popular tokenizers.

TokSuite: Medindo o Impacto da Escolha do Tokenizador no Comportamento de Modelos de Linguagem

TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior

Resumo

Support