TokSuite: Messung der Auswirkungen der Tokenizer-Auswahl auf das Verhalten von Sprachmodellen
TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior
December 23, 2025
papers.authors: Gül Sena Altıntaş, Malikeh Ehghaghi, Brian Lester, Fengyuan Liu, Wanru Zhao, Marco Ciccone, Colin Raffel
cs.AI
papers.abstract
Tokenizer bilden die grundlegende Basis, auf der Text durch Sprachmodelle (LMs) repräsentiert und verarbeitet wird. Trotz der Bedeutung der Tokenisierung ist ihre Rolle für die Leistung und das Verhalten von LMs aufgrund der Schwierigkeit, den Einfluss der Tokenisierung isoliert zu messen, kaum verstanden. Um diesem Bedarf gerecht zu werden, stellen wir TokSuite vor, eine Sammlung von Modellen und ein Benchmark, das die Erforschung des Einflusses der Tokenisierung auf LMs unterstützt. Konkret trainieren wir vierzehn Modelle, die unterschiedliche Tokenizer verwenden, ansonsten aber identisch sind – mit derselben Architektur, demselben Datensatz, demselben Trainingsbudget und derselben Initialisierung. Zusätzlich stellen wir einen neuen Benchmark zusammen und veröffentlichen ihn, der speziell die Modellleistung unter realen Störungen misst, die wahrscheinlich die Tokenisierung beeinflussen. Zusammen ermöglicht TokSuite eine robuste Entkopplung des Einflusses des Tokenizers eines Modells und unterstützt eine Reihe neuartiger Erkenntnisse, die die jeweiligen Vorzüge und Schwächen einer Vielzahl beliebter Tokenizer aufzeigen.
English
Tokenizers provide the fundamental basis through which text is represented and processed by language models (LMs). Despite the importance of tokenization, its role in LM performance and behavior is poorly understood due to the challenge of measuring the impact of tokenization in isolation. To address this need, we present TokSuite, a collection of models and a benchmark that supports research into tokenization's influence on LMs. Specifically, we train fourteen models that use different tokenizers but are otherwise identical using the same architecture, dataset, training budget, and initialization. Additionally, we curate and release a new benchmark that specifically measures model performance subject to real-world perturbations that are likely to influence tokenization. Together, TokSuite allows robust decoupling of the influence of a model's tokenizer, supporting a series of novel findings that elucidate the respective benefits and shortcomings of a wide range of popular tokenizers.