Desacoplamento dos Benefícios da Tokenização de Subpalavras para o Treinamento de Modelos de Linguagem por meio de Simulação em Nível de Byte

Resumo

A tokenização por subpalavras é uma parte essencial dos modelos modernos de linguagem de grande escala (LLMs), mas suas contribuições específicas para a eficiência de treinamento e o desempenho dos modelos ainda são pouco compreendidas. Neste trabalho, separamos os efeitos da tokenização por subpalavras ao isolá-los em um pipeline controlado de pré-treinamento em nível de byte. Formulamos e testamos hipóteses em diversas dimensões, incluindo rendimento de amostras, escalonamento de vocabulário e o prior linguístico das fronteiras de subpalavras. Ao simular esses efeitos em um ambiente de nível de byte, refinamos nossa compreensão sobre por que os modelos baseados em subpalavras superam os modelos de bytes puros e oferecemos insights para melhorar o pré-treinamento de futuros modelos de nível de byte e de subpalavras. Especificamente, nossos experimentos destacam o papel crítico do aumento do rendimento de treinamento e da integração das fronteiras de subpalavras como priores explícitos ou viéses indutivos.

English

Subword tokenization is an essential part of modern large language models (LLMs), yet its specific contributions to training efficiency and model performance remain poorly understood. In this work, we decouple the effects of subword tokenization by isolating them within a controlled byte-level pretraining pipeline. We formulate and test hypotheses across various dimensions, including sample throughput, vocabulary scaling, and the linguistic prior of subword boundaries. By simulating these effects in a byte-level setting, we refine our understanding of why subword models outperform raw byte models and offer insights to improve the pretraining of future byte-level and subword models. Specifically, our experiments highlight the critical role of increased training throughput and the integration of subword boundaries as either explicit priors or inductive biases.