Transformer Super-Tokenizado: Escalar o Vocabulário Geralmente Vale a Pena
Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling
January 28, 2025
Autores: Hongzhi Huang, Defa Zhu, Banggu Wu, Yutao Zeng, Ya Wang, Qiyang Min, Xun Zhou
cs.AI
Resumo
A tokenização é um componente fundamental de grandes modelos de linguagem (LLMs), no entanto, sua influência na escalabilidade e desempenho do modelo não está totalmente explorada. Neste artigo, apresentamos os Transformadores Super-Tokenizados, um novo framework que desacopla os vocabulários de entrada e saída para melhorar o desempenho da modelagem de linguagem. Especificamente, nossa abordagem amplia os vocabulários de entrada para aproveitar tokens de vários gramas. Através de experimentos extensivos, descobrimos uma relação log-linear entre o tamanho do vocabulário de entrada e a perda de treinamento, demonstrando que vocabulários de entrada maiores melhoram consistentemente o desempenho do modelo, independentemente do tamanho do modelo. Usando um vocabulário de entrada grande, alcançamos desempenho comparável a baselines de tamanho dobrado sem custo adicional. Nossas descobertas destacam a importância da tokenização nas leis de escalabilidade e fornecem insights práticos para o design de tokenizers, abrindo caminho para LLMs mais eficientes e poderosos.
English
Tokenization is a fundamental component of large language models (LLMs), yet
its influence on model scaling and performance is not fully explored. In this
paper, we introduce Over-Tokenized Transformers, a novel framework that
decouples input and output vocabularies to improve language modeling
performance. Specifically, our approach scales up input vocabularies to
leverage multi-gram tokens. Through extensive experiments, we uncover a
log-linear relationship between input vocabulary size and training loss,
demonstrating that larger input vocabularies consistently enhance model
performance, regardless of model size. Using a large input vocabulary, we
achieve performance comparable to double-sized baselines with no additional
cost. Our findings highlight the importance of tokenization in scaling laws and
provide practical insight for tokenizer design, paving the way for more
efficient and powerful LLMs.Summary
AI-Generated Summary