TokSuite: 토크나이저 선택이 언어 모델 동작에 미치는 영향 측정
TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior
December 23, 2025
저자: Gül Sena Altıntaş, Malikeh Ehghaghi, Brian Lester, Fengyuan Liu, Wanru Zhao, Marco Ciccone, Colin Raffel
cs.AI
초록
토크나이저는 언어 모델(LM)이 텍스트를 표현하고 처리하는 근본적인 기반을 제공합니다. 토크나이저의 중요성에도 불구하고, 토크나이제이션의 영향을 단독으로 측정하는 데 따른 어려움으로 인해 LM 성능 및 동작에 미치는 그 역할은 제대로 이해되지 않고 있습니다. 이러한 필요를 해결하기 위해 우리는 토크나이제이션이 LM에 미치는 영향에 대한 연구를 지원하는 모델 컬렉션 및 벤치마크인 TokSuite를 소개합니다. 구체적으로, 우리는 서로 다른 토크나이저를 사용하지만 그 외에는 동일한 아키텍처, 데이터셋, 학습 예산, 초기화 조건을 적용하여 14개의 모델을 학습했습니다. 추가적으로, 토크나이제이션에 영향을 미칠 가능성이 있는 실제적 변동에 따른 모델 성능을 특별히 측정하는 새로운 벤치마크를 정제하여 공개합니다. TokSuite는 이를 통해 모델의 토크나이저 영향력을 강력하게 분리하여, 다양한 인기 토크나이저들의 각각의 장점과 단점을 밝히는 일련의 새로운 발견을 지원합니다.
English
Tokenizers provide the fundamental basis through which text is represented and processed by language models (LMs). Despite the importance of tokenization, its role in LM performance and behavior is poorly understood due to the challenge of measuring the impact of tokenization in isolation. To address this need, we present TokSuite, a collection of models and a benchmark that supports research into tokenization's influence on LMs. Specifically, we train fourteen models that use different tokenizers but are otherwise identical using the same architecture, dataset, training budget, and initialization. Additionally, we curate and release a new benchmark that specifically measures model performance subject to real-world perturbations that are likely to influence tokenization. Together, TokSuite allows robust decoupling of the influence of a model's tokenizer, supporting a series of novel findings that elucidate the respective benefits and shortcomings of a wide range of popular tokenizers.