TokSuite: Het meten van de impact van tokenizerkeuze op het gedrag van taalmodelen
TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior
December 23, 2025
Auteurs: Gül Sena Altıntaş, Malikeh Ehghaghi, Brian Lester, Fengyuan Liu, Wanru Zhao, Marco Ciccone, Colin Raffel
cs.AI
Samenvatting
Tokenizers vormen de fundamentele basis waarmee tekst wordt gerepresenteerd en verwerkt door taalmodel(len (LM's). Ondanks het belang van tokenisatie is de rol ervan in de prestaties en het gedrag van LM's slecht begrepen, vanwege de uitdaging om de impact van tokenisatie geïsoleerd te meten. Om in deze behoefte te voorzien, presenteren wij TokSuite, een verzameling modellen en een benchmark die onderzoek ondersteunt naar de invloed van tokenisatie op LM's. Concreet trainen wij veertien modellen die verschillende tokenizers gebruiken maar verder identiek zijn, met dezelfde architectuur, dataset, trainingsbudget en initialisatie. Daarnaast stellen wij een nieuwe benchmark samen en maken deze openbaar, die specifiek de modelprestaties meet onder invloed van real-world verstoringen die waarschijnlijk van invloed zijn op de tokenisatie. Samen stelt TokSuite ons in staat om de invloed van de tokenizer van een model robuust te ontkoppelen, wat een reeks nieuwe bevindingen ondersteunt die de respectieve voordelen en tekortkomingen van een breed scala aan populaire tokenizers ophelderen.
English
Tokenizers provide the fundamental basis through which text is represented and processed by language models (LMs). Despite the importance of tokenization, its role in LM performance and behavior is poorly understood due to the challenge of measuring the impact of tokenization in isolation. To address this need, we present TokSuite, a collection of models and a benchmark that supports research into tokenization's influence on LMs. Specifically, we train fourteen models that use different tokenizers but are otherwise identical using the same architecture, dataset, training budget, and initialization. Additionally, we curate and release a new benchmark that specifically measures model performance subject to real-world perturbations that are likely to influence tokenization. Together, TokSuite allows robust decoupling of the influence of a model's tokenizer, supporting a series of novel findings that elucidate the respective benefits and shortcomings of a wide range of popular tokenizers.