ChatPaper.aiChatPaper

Transformateur sur-tokenisé : il est généralement bénéfique de mettre à l'échelle le vocabulaire

Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling

January 28, 2025
Auteurs: Hongzhi Huang, Defa Zhu, Banggu Wu, Yutao Zeng, Ya Wang, Qiyang Min, Xun Zhou
cs.AI

Résumé

La tokenisation est un composant fondamental des grands modèles de langage (GML), cependant son influence sur l'échelle et les performances des modèles n'est pas entièrement explorée. Dans cet article, nous présentons les Transformers sur-tokenisés, un nouveau cadre qui sépare les vocabulaires d'entrée et de sortie pour améliorer les performances de modélisation de langage. Plus précisément, notre approche met à l'échelle les vocabulaires d'entrée pour exploiter les tokens multi-grammes. À travers des expériences approfondies, nous mettons en évidence une relation log-linéaire entre la taille du vocabulaire d'entrée et la perte d'entraînement, démontrant que des vocabulaires d'entrée plus grands améliorent systématiquement les performances du modèle, indépendamment de sa taille. En utilisant un grand vocabulaire d'entrée, nous obtenons des performances comparables à des références de taille double sans coût supplémentaire. Nos résultats soulignent l'importance de la tokenisation dans les lois d'échelle et fournissent des informations pratiques pour la conception de tokeniseurs, ouvrant la voie à des GML plus efficaces et puissants.
English
Tokenization is a fundamental component of large language models (LLMs), yet its influence on model scaling and performance is not fully explored. In this paper, we introduce Over-Tokenized Transformers, a novel framework that decouples input and output vocabularies to improve language modeling performance. Specifically, our approach scales up input vocabularies to leverage multi-gram tokens. Through extensive experiments, we uncover a log-linear relationship between input vocabulary size and training loss, demonstrating that larger input vocabularies consistently enhance model performance, regardless of model size. Using a large input vocabulary, we achieve performance comparable to double-sized baselines with no additional cost. Our findings highlight the importance of tokenization in scaling laws and provide practical insight for tokenizer design, paving the way for more efficient and powerful LLMs.

Summary

AI-Generated Summary

PDF314January 29, 2025