La tokenisation à la peine : Le fléau de la tokenisation
Tokenization Falling Short: The Curse of Tokenization
June 17, 2024
Auteurs: Yekun Chai, Yewei Fang, Qiwei Peng, Xuhong Li
cs.AI
Résumé
Les modèles de langage transforment généralement le texte brut en séquences d'identifiants de sous-mots issus d'un vocabulaire prédéfini, un processus intrinsèquement sensible aux erreurs typographiques, aux variations de longueur et largement insensible à la structure interne des tokens - des problèmes que nous qualifions de malédiction de la tokenisation. Dans cette étude, nous explorons ces inconvénients et démontrons que les grands modèles de langage (LLMs) restent vulnérables à ces problèmes. Cette étude examine systématiquement ces défis et leur impact sur les LLMs à travers trois questions de recherche critiques : (1) la résolution de problèmes complexes, (2) l'exploration de la structure des tokens, et (3) la résilience face aux variations typographiques. Nos résultats révèlent que l'augmentation des paramètres du modèle peut atténuer le problème de la tokenisation ; cependant, les LLMs souffrent encore de biais induits par les fautes de frappe et autres variations de format de texte. Nos expériences montrent que la régularisation des sous-mots, telle que BPE-dropout, peut atténuer ce problème. Nous publierons notre code et nos données pour faciliter les recherches futures.
English
Language models typically tokenize raw text into sequences of subword
identifiers from a predefined vocabulary, a process inherently sensitive to
typographical errors, length variations, and largely oblivious to the internal
structure of tokens-issues we term the curse of tokenization. In this study, we
delve into these drawbacks and demonstrate that large language models (LLMs)
remain susceptible to these problems. This study systematically investigates
these challenges and their impact on LLMs through three critical research
questions: (1) complex problem solving, (2) token structure probing, and (3)
resilience to typographical variation. Our findings reveal that scaling model
parameters can mitigate the issue of tokenization; however, LLMs still suffer
from biases induced by typos and other text format variations. Our experiments
show that subword regularization such as BPE-dropout can mitigate this issue.
We will release our code and data to facilitate further research.Summary
AI-Generated Summary