TokSuite: トークナイザ選択が言語モデルの挙動に与える影響の測定
TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior
December 23, 2025
著者: Gül Sena Altıntaş, Malikeh Ehghaghi, Brian Lester, Fengyuan Liu, Wanru Zhao, Marco Ciccone, Colin Raffel
cs.AI
要旨
トークナイザーは、言語モデル(LM)によってテキストが表現され処理されるための基盤を提供する。トークナイズの重要性にもかかわらず、その影響を単離して測定する難しさから、LMの性能や振る舞いにおける役割は十分に理解されていない。この課題に対処するため、我々はトークナイズがLMに与える影響を研究するためのモデル群とベンチマークをまとめた「TokSuite」を提案する。具体的には、同一のアーキテクチャ、データセット、学習予算、初期化を用いながら、異なるトークナイザーを使用する14種類のモデルを学習する。さらに、トークナイズに影響を与えやすい現実世界の摂動に特化してモデル性能を測定する新たなベンチマークを構築し公開する。TokSuiteにより、モデルのトークナイザーの影響を頑健に分離できるようになり、多様な人気トークナイザーの利点と欠点を明らかにする一連の新規知見が得られた。
English
Tokenizers provide the fundamental basis through which text is represented and processed by language models (LMs). Despite the importance of tokenization, its role in LM performance and behavior is poorly understood due to the challenge of measuring the impact of tokenization in isolation. To address this need, we present TokSuite, a collection of models and a benchmark that supports research into tokenization's influence on LMs. Specifically, we train fourteen models that use different tokenizers but are otherwise identical using the same architecture, dataset, training budget, and initialization. Additionally, we curate and release a new benchmark that specifically measures model performance subject to real-world perturbations that are likely to influence tokenization. Together, TokSuite allows robust decoupling of the influence of a model's tokenizer, supporting a series of novel findings that elucidate the respective benefits and shortcomings of a wide range of popular tokenizers.