ChatPaper.aiChatPaper

Transformer Eccessivamente Tokenizzato: In Generale, Vale la Pena Ridimensionare il Vocabolario

Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling

January 28, 2025
Autori: Hongzhi Huang, Defa Zhu, Banggu Wu, Yutao Zeng, Ya Wang, Qiyang Min, Xun Zhou
cs.AI

Abstract

La tokenizzazione è un componente fondamentale dei grandi modelli linguistici (LLM), tuttavia il suo impatto sulla scalabilità e sulle prestazioni del modello non è completamente esplorato. In questo articolo, presentiamo i Transformers sovra-tokenizzati, un nuovo framework che separa i vocabolari di input e output per migliorare le prestazioni del language modeling. In particolare, il nostro approccio scala i vocabolari di input per sfruttare i token multi-grammi. Attraverso estesi esperimenti, scopriamo una relazione log-lineare tra le dimensioni del vocabolario di input e la perdita durante l'addestramento, dimostrando che vocabolari di input più grandi migliorano costantemente le prestazioni del modello, indipendentemente dalle dimensioni del modello. Utilizzando un ampio vocabolario di input, otteniamo prestazioni paragonabili a baselines di dimensioni doppie senza costi aggiuntivi. Le nostre scoperte evidenziano l'importanza della tokenizzazione nelle leggi di scalabilità e forniscono spunti pratici per la progettazione del tokenizer, aprendo la strada a LLM più efficienti e potenti.
English
Tokenization is a fundamental component of large language models (LLMs), yet its influence on model scaling and performance is not fully explored. In this paper, we introduce Over-Tokenized Transformers, a novel framework that decouples input and output vocabularies to improve language modeling performance. Specifically, our approach scales up input vocabularies to leverage multi-gram tokens. Through extensive experiments, we uncover a log-linear relationship between input vocabulary size and training loss, demonstrating that larger input vocabularies consistently enhance model performance, regardless of model size. Using a large input vocabulary, we achieve performance comparable to double-sized baselines with no additional cost. Our findings highlight the importance of tokenization in scaling laws and provide practical insight for tokenizer design, paving the way for more efficient and powerful LLMs.

Summary

AI-Generated Summary

PDF314January 29, 2025