ChatPaper.aiChatPaper

TokSuite: Medición del Impacto de la Elección del Tokenizador en el Comportamiento de los Modelos de Lenguaje

TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior

December 23, 2025
Autores: Gül Sena Altıntaş, Malikeh Ehghaghi, Brian Lester, Fengyuan Liu, Wanru Zhao, Marco Ciccone, Colin Raffel
cs.AI

Resumen

Los tokenizadores proporcionan la base fundamental mediante la cual los modelos de lenguaje (LM) representan y procesan texto. A pesar de la importancia de la tokenización, su papel en el rendimiento y comportamiento de los LM es poco comprendido debido al desafío de medir el impacto de la tokenización de forma aislada. Para abordar esta necesidad, presentamos TokSuite, una colección de modelos y un benchmark que respalda la investigación sobre la influencia de la tokenización en los LM. Específicamente, entrenamos catorce modelos que utilizan diferentes tokenizadores pero que son idénticos en todo lo demás, empleando la misma arquitectura, conjunto de datos, presupuesto de entrenamiento e inicialización. Adicionalmente, recopilamos y publicamos un nuevo benchmark que mide específicamente el rendimiento del modelo sujeto a perturbaciones del mundo real que probablemente influyan en la tokenización. En conjunto, TokSuite permite desacoplar de manera robusta la influencia del tokenizador de un modelo, respaldando una serie de hallazgos novedosos que dilucidan los beneficios y deficiencias respectivos de una amplia gama de tokenizadores populares.
English
Tokenizers provide the fundamental basis through which text is represented and processed by language models (LMs). Despite the importance of tokenization, its role in LM performance and behavior is poorly understood due to the challenge of measuring the impact of tokenization in isolation. To address this need, we present TokSuite, a collection of models and a benchmark that supports research into tokenization's influence on LMs. Specifically, we train fourteen models that use different tokenizers but are otherwise identical using the same architecture, dataset, training budget, and initialization. Additionally, we curate and release a new benchmark that specifically measures model performance subject to real-world perturbations that are likely to influence tokenization. Together, TokSuite allows robust decoupling of the influence of a model's tokenizer, supporting a series of novel findings that elucidate the respective benefits and shortcomings of a wide range of popular tokenizers.
PDF111December 26, 2025