TokSuite: Misurare l'Impatto della Scelta del Tokenizzatore sul Comportamento dei Modelli Linguistici
TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior
December 23, 2025
Autori: Gül Sena Altıntaş, Malikeh Ehghaghi, Brian Lester, Fengyuan Liu, Wanru Zhao, Marco Ciccone, Colin Raffel
cs.AI
Abstract
I tokenizzatori forniscono la base fondamentale attraverso la quale il testo viene rappresentato ed elaborato dai modelli linguistici (LM). Nonostante l'importanza della tokenizzazione, il suo ruolo nelle prestazioni e nel comportamento degli LM è scarsamente compreso a causa della difficoltà di misurare l'impatto della tokenizzazione in isolamento. Per far fronte a questa esigenza, presentiamo TokSuite, una raccolta di modelli e un benchmark che supporta la ricerca sull'influenza della tokenizzazione sugli LM. Nello specifico, addestriamo quattordici modelli che utilizzano tokenizzatori diversi ma che sono per il resto identici, impiegando la stessa architettura, dataset, budget di addestramento e inizializzazione. Inoltre, curiamo e rilasciamo un nuovo benchmark che misura specificamente le prestazioni del modello soggette a perturbazioni del mondo reale che potrebbero influenzare la tokenizzazione. Nel complesso, TokSuite consente un robusto disaccoppiamento dell'influenza del tokenizzatore di un modello, supportando una serie di nuove scoperte che chiariscono i rispettivi vantaggi e limiti di un'ampia gamma di tokenizzatori popolari.
English
Tokenizers provide the fundamental basis through which text is represented and processed by language models (LMs). Despite the importance of tokenization, its role in LM performance and behavior is poorly understood due to the challenge of measuring the impact of tokenization in isolation. To address this need, we present TokSuite, a collection of models and a benchmark that supports research into tokenization's influence on LMs. Specifically, we train fourteen models that use different tokenizers but are otherwise identical using the same architecture, dataset, training budget, and initialization. Additionally, we curate and release a new benchmark that specifically measures model performance subject to real-world perturbations that are likely to influence tokenization. Together, TokSuite allows robust decoupling of the influence of a model's tokenizer, supporting a series of novel findings that elucidate the respective benefits and shortcomings of a wide range of popular tokenizers.