ChatPaper.aiChatPaper

TokSuite: Оценка влияния выбора токенизатора на поведение языковых моделей

TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior

December 23, 2025
Авторы: Gül Sena Altıntaş, Malikeh Ehghaghi, Brian Lester, Fengyuan Liu, Wanru Zhao, Marco Ciccone, Colin Raffel
cs.AI

Аннотация

Токенизаторы обеспечивают фундаментальную основу для представления и обработки текста языковыми моделями (language models, LM). Несмотря на важность токенизации, её влияние на производительность и поведение языковых моделей остается малоизученным из-за сложности оценки изолированного воздействия токенизации. Для решения этой задачи мы представляем TokSuite — набор моделей и бенчмарк, предназначенные для исследования влияния токенизации на языковые модели. В частности, мы обучаем четырнадцать моделей с разными токенизаторами, но идентичных во всех остальных отношениях: по архитектуре, набору данных, бюджету обучения и инициализации. Дополнительно мы разрабатываем и публикуем новый бенчмарк, который специально оценивает производительность моделей при воздействии реальных возмущений, способных повлиять на токенизацию. В совокупности TokSuite позволяет надежно отделить влияние токенизатора модели, что способствует серии новых открытий, проясняющих преимущества и недостатки широкого спектра популярных токенизаторов.
English
Tokenizers provide the fundamental basis through which text is represented and processed by language models (LMs). Despite the importance of tokenization, its role in LM performance and behavior is poorly understood due to the challenge of measuring the impact of tokenization in isolation. To address this need, we present TokSuite, a collection of models and a benchmark that supports research into tokenization's influence on LMs. Specifically, we train fourteen models that use different tokenizers but are otherwise identical using the same architecture, dataset, training budget, and initialization. Additionally, we curate and release a new benchmark that specifically measures model performance subject to real-world perturbations that are likely to influence tokenization. Together, TokSuite allows robust decoupling of the influence of a model's tokenizer, supporting a series of novel findings that elucidate the respective benefits and shortcomings of a wide range of popular tokenizers.
PDF111December 26, 2025