TokSuite : Mesurer l'impact du choix du tokeniseur sur le comportement des modèles de langage
TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior
December 23, 2025
papers.authors: Gül Sena Altıntaş, Malikeh Ehghaghi, Brian Lester, Fengyuan Liu, Wanru Zhao, Marco Ciccone, Colin Raffel
cs.AI
papers.abstract
Les tokeniseurs constituent la base fondamentale par laquelle le texte est représenté et traité par les modèles de langage (LM). Malgré l'importance de la tokenisation, son rôle dans les performances et le comportement des LM reste mal compris en raison de la difficulté à mesurer l'impact de la tokenisation de manière isolée. Pour répondre à ce besoin, nous présentons TokSuite, une collection de modèles et un benchmark qui soutiennent la recherche sur l'influence de la tokenisation sur les LM. Plus précisément, nous entraînons quatorze modèles utilisant différents tokeniseurs mais par ailleurs identiques en utilisant la même architecture, le même jeu de données, le même budget d'entraînement et la même initialisation. De plus, nous constituons et publions un nouveau benchmark qui mesure spécifiquement les performances des modèles face à des perturbations réalistes susceptibles d'influencer la tokenisation. Ensemble, TokSuite permet un découplage robuste de l'influence du tokeniseur d'un modèle, soutenant une série de découvertes novatrices qui élucident les avantages et les limites respectifs d'un large éventail de tokeniseurs populaires.
English
Tokenizers provide the fundamental basis through which text is represented and processed by language models (LMs). Despite the importance of tokenization, its role in LM performance and behavior is poorly understood due to the challenge of measuring the impact of tokenization in isolation. To address this need, we present TokSuite, a collection of models and a benchmark that supports research into tokenization's influence on LMs. Specifically, we train fourteen models that use different tokenizers but are otherwise identical using the same architecture, dataset, training budget, and initialization. Additionally, we curate and release a new benchmark that specifically measures model performance subject to real-world perturbations that are likely to influence tokenization. Together, TokSuite allows robust decoupling of the influence of a model's tokenizer, supporting a series of novel findings that elucidate the respective benefits and shortcomings of a wide range of popular tokenizers.