ChatPaper.aiChatPaper

Tokenisatie schiet tekort: de vloek van tokenisatie

Tokenization Falling Short: The Curse of Tokenization

June 17, 2024
Auteurs: Yekun Chai, Yewei Fang, Qiwei Peng, Xuhong Li
cs.AI

Samenvatting

Taalmodellen tokeniseren doorgaans ruwe tekst in reeksen subwoord-identificatoren uit een vooraf gedefinieerde vocabulaire, een proces dat inherent gevoelig is voor typografische fouten, lengtevariaties en grotendeels onbewust is van de interne structuur van tokens—problemen die wij de vloek van tokenisatie noemen. In deze studie verdiepen we ons in deze nadelen en tonen we aan dat grote taalmodellen (LLM's) vatbaar blijven voor deze problemen. Deze studie onderzoekt systematisch deze uitdagingen en hun impact op LLM's via drie kritische onderzoeksvragen: (1) complexe probleemoplossing, (2) onderzoek naar tokenstructuur, en (3) veerkracht tegen typografische variatie. Onze bevindingen onthullen dat het schalen van modelparameters het probleem van tokenisatie kan verzachten; echter, LLM's lijden nog steeds onder vooroordelen veroorzaakt door typfouten en andere tekstformaatvariaties. Onze experimenten tonen aan dat subwoordregularisatie zoals BPE-dropout dit probleem kan verminderen. Wij zullen onze code en data vrijgeven om verder onderzoek te faciliteren.
English
Language models typically tokenize raw text into sequences of subword identifiers from a predefined vocabulary, a process inherently sensitive to typographical errors, length variations, and largely oblivious to the internal structure of tokens-issues we term the curse of tokenization. In this study, we delve into these drawbacks and demonstrate that large language models (LLMs) remain susceptible to these problems. This study systematically investigates these challenges and their impact on LLMs through three critical research questions: (1) complex problem solving, (2) token structure probing, and (3) resilience to typographical variation. Our findings reveal that scaling model parameters can mitigate the issue of tokenization; however, LLMs still suffer from biases induced by typos and other text format variations. Our experiments show that subword regularization such as BPE-dropout can mitigate this issue. We will release our code and data to facilitate further research.
PDF161February 7, 2026