Перетокенизированный трансформер: масштабирование словаря обычно оправдано.
Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling
January 28, 2025
Авторы: Hongzhi Huang, Defa Zhu, Banggu Wu, Yutao Zeng, Ya Wang, Qiyang Min, Xun Zhou
cs.AI
Аннотация
Токенизация является фундаментальным компонентом больших языковых моделей (LLM), однако ее влияние на масштабирование модели и производительность не полностью исследовано. В данной статье мы представляем Over-Tokenized Transformers, новую концепцию, которая разделяет входные и выходные словари для улучшения языкового моделирования. Конкретно, наш подход масштабирует входные словари для использования многограммных токенов. Через обширные эксперименты мы обнаружили логарифмическую зависимость между размером входного словаря и потерей при обучении, демонстрируя, что более крупные входные словари последовательно улучшают производительность модели, независимо от ее размера. Используя большой входной словарь, мы достигли производительности, сравнимой с удвоенными базовыми значениями без дополнительных затрат. Наши результаты подчеркивают важность токенизации в законах масштабирования и предоставляют практические идеи для разработки токенизатора, открывая путь к более эффективным и мощным LLM.
English
Tokenization is a fundamental component of large language models (LLMs), yet
its influence on model scaling and performance is not fully explored. In this
paper, we introduce Over-Tokenized Transformers, a novel framework that
decouples input and output vocabularies to improve language modeling
performance. Specifically, our approach scales up input vocabularies to
leverage multi-gram tokens. Through extensive experiments, we uncover a
log-linear relationship between input vocabulary size and training loss,
demonstrating that larger input vocabularies consistently enhance model
performance, regardless of model size. Using a large input vocabulary, we
achieve performance comparable to double-sized baselines with no additional
cost. Our findings highlight the importance of tokenization in scaling laws and
provide practical insight for tokenizer design, paving the way for more
efficient and powerful LLMs.Summary
AI-Generated Summary