Transformer Eccessivamente Tokenizzato: In Generale, Vale la Pena Ridimensionare il Vocabolario
Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling
January 28, 2025
Autori: Hongzhi Huang, Defa Zhu, Banggu Wu, Yutao Zeng, Ya Wang, Qiyang Min, Xun Zhou
cs.AI
Abstract
La tokenizzazione è un componente fondamentale dei grandi modelli linguistici (LLM), tuttavia il suo impatto sulla scalabilità e sulle prestazioni del modello non è completamente esplorato. In questo articolo, presentiamo i Transformers sovra-tokenizzati, un nuovo framework che separa i vocabolari di input e output per migliorare le prestazioni del language modeling. In particolare, il nostro approccio scala i vocabolari di input per sfruttare i token multi-grammi. Attraverso estesi esperimenti, scopriamo una relazione log-lineare tra le dimensioni del vocabolario di input e la perdita durante l'addestramento, dimostrando che vocabolari di input più grandi migliorano costantemente le prestazioni del modello, indipendentemente dalle dimensioni del modello. Utilizzando un ampio vocabolario di input, otteniamo prestazioni paragonabili a baselines di dimensioni doppie senza costi aggiuntivi. Le nostre scoperte evidenziano l'importanza della tokenizzazione nelle leggi di scalabilità e forniscono spunti pratici per la progettazione del tokenizer, aprendo la strada a LLM più efficienti e potenti.
English
Tokenization is a fundamental component of large language models (LLMs), yet
its influence on model scaling and performance is not fully explored. In this
paper, we introduce Over-Tokenized Transformers, a novel framework that
decouples input and output vocabularies to improve language modeling
performance. Specifically, our approach scales up input vocabularies to
leverage multi-gram tokens. Through extensive experiments, we uncover a
log-linear relationship between input vocabulary size and training loss,
demonstrating that larger input vocabularies consistently enhance model
performance, regardless of model size. Using a large input vocabulary, we
achieve performance comparable to double-sized baselines with no additional
cost. Our findings highlight the importance of tokenization in scaling laws and
provide practical insight for tokenizer design, paving the way for more
efficient and powerful LLMs.Summary
AI-Generated Summary