Tokenização Insuficiente: A Maldição da Tokenização
Tokenization Falling Short: The Curse of Tokenization
June 17, 2024
Autores: Yekun Chai, Yewei Fang, Qiwei Peng, Xuhong Li
cs.AI
Resumo
Modelos de linguagem normalmente tokenizam texto bruto em sequências de identificadores de subpalavras a partir de um vocabulário pré-definido, um processo inerentemente sensível a erros tipográficos, variações de comprimento e amplamente alheio à estrutura interna dos tokens — problemas que denominamos de maldição da tokenização. Neste estudo, exploramos essas desvantagens e demonstramos que modelos de linguagem de grande escala (LLMs) permanecem suscetíveis a esses problemas. Este estudo investiga sistematicamente esses desafios e seu impacto nos LLMs por meio de três questões de pesquisa críticas: (1) resolução de problemas complexos, (2) sondagem da estrutura dos tokens e (3) resiliência a variações tipográficas. Nossas descobertas revelam que a escalonamento de parâmetros do modelo pode mitigar o problema da tokenização; no entanto, os LLMs ainda sofrem com vieses induzidos por erros de digitação e outras variações de formato de texto. Nossos experimentos mostram que a regularização de subpalavras, como o BPE-dropout, pode mitigar esse problema. Disponibilizaremos nosso código e dados para facilitar pesquisas futuras.
English
Language models typically tokenize raw text into sequences of subword
identifiers from a predefined vocabulary, a process inherently sensitive to
typographical errors, length variations, and largely oblivious to the internal
structure of tokens-issues we term the curse of tokenization. In this study, we
delve into these drawbacks and demonstrate that large language models (LLMs)
remain susceptible to these problems. This study systematically investigates
these challenges and their impact on LLMs through three critical research
questions: (1) complex problem solving, (2) token structure probing, and (3)
resilience to typographical variation. Our findings reveal that scaling model
parameters can mitigate the issue of tokenization; however, LLMs still suffer
from biases induced by typos and other text format variations. Our experiments
show that subword regularization such as BPE-dropout can mitigate this issue.
We will release our code and data to facilitate further research.