ChatPaper.aiChatPaper

Transformer Sobre-Tokenizado: Escalar el Vocabulario Suele Ser Beneficioso

Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling

January 28, 2025
Autores: Hongzhi Huang, Defa Zhu, Banggu Wu, Yutao Zeng, Ya Wang, Qiyang Min, Xun Zhou
cs.AI

Resumen

La tokenización es un componente fundamental de los modelos de lenguaje grandes (LLMs), sin embargo, su influencia en la escalabilidad y el rendimiento del modelo no está completamente explorada. En este artículo, presentamos Transformadores Sobre-Tokenizados, un nuevo marco que desacopla los vocabularios de entrada y salida para mejorar el rendimiento del modelado del lenguaje. Específicamente, nuestro enfoque amplía los vocabularios de entrada para aprovechar los tokens de varios gramos. A través de experimentos extensos, descubrimos una relación log-lineal entre el tamaño del vocabulario de entrada y la pérdida de entrenamiento, demostrando que los vocabularios de entrada más grandes mejoran consistentemente el rendimiento del modelo, independientemente del tamaño del modelo. Utilizando un vocabulario de entrada grande, logramos un rendimiento comparable a líneas de base de tamaño doble sin costo adicional. Nuestros hallazgos resaltan la importancia de la tokenización en las leyes de escalabilidad y proporcionan información práctica para el diseño de tokenizadores, allanando el camino para LLMs más eficientes y potentes.
English
Tokenization is a fundamental component of large language models (LLMs), yet its influence on model scaling and performance is not fully explored. In this paper, we introduce Over-Tokenized Transformers, a novel framework that decouples input and output vocabularies to improve language modeling performance. Specifically, our approach scales up input vocabularies to leverage multi-gram tokens. Through extensive experiments, we uncover a log-linear relationship between input vocabulary size and training loss, demonstrating that larger input vocabularies consistently enhance model performance, regardless of model size. Using a large input vocabulary, we achieve performance comparable to double-sized baselines with no additional cost. Our findings highlight the importance of tokenization in scaling laws and provide practical insight for tokenizer design, paving the way for more efficient and powerful LLMs.

Summary

AI-Generated Summary

PDF314January 29, 2025