ChatPaper.aiChatPaper

Leis de Escala com Vocabulário: Modelos Maiores Merecem Vocabulários Maiores

Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

July 18, 2024
Autores: Chaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong
cs.AI

Resumo

A pesquisa sobre a escalabilidade de grandes modelos de linguagem (LLMs) tem se concentrado principalmente nos parâmetros do modelo e no tamanho dos dados de treinamento, negligenciando o papel do tamanho do vocabulário. Intuitivamente, vocabulários maiores permitem uma tokenização mais eficiente, representando frases com menos tokens, mas também aumentam o risco de representações insuficientes para tokens raros. Investigamos como o tamanho do vocabulário impacta as leis de escalabilidade do LLM, treinando modelos com parâmetros variando de 33M a 3B em até 500B de caracteres com várias configurações de vocabulário. Propomos três abordagens complementares para prever o tamanho de vocabulário computacionalmente ideal: análise IsoFLOPs, estimativa de derivadas e ajuste paramétrico da função de perda. Nossas abordagens convergem para o mesmo resultado de que o tamanho de vocabulário ideal depende do orçamento computacional disponível e que modelos maiores merecem vocabulários maiores. No entanto, a maioria dos LLMs utiliza tamanhos de vocabulário muito pequenos. Por exemplo, prevemos que o tamanho de vocabulário ideal do Llama2-70B deveria ter sido de pelo menos 216K, 7 vezes maior do que seu vocabulário de 32K. Validamos nossas previsões empiricamente treinando modelos com 3B de parâmetros em diferentes orçamentos de FLOPs. A adoção do nosso tamanho de vocabulário ideal previsto melhora consistentemente o desempenho subsequente em relação aos tamanhos de vocabulário comumente utilizados. Ao aumentar o tamanho do vocabulário de 32K convencionais para 43K, melhoramos o desempenho no ARC-Challenge de 29.1 para 32.0 com os mesmos 2.3e21 FLOPs. Nosso trabalho enfatiza a necessidade de considerar em conjunto os parâmetros do modelo e o tamanho do vocabulário para uma escalabilidade eficiente.
English
Research on scaling large language models (LLMs) has primarily focused on model parameters and training data size, overlooking the role of vocabulary size. % Intuitively, larger vocabularies enable more efficient tokenization by representing sentences with fewer tokens, but they also increase the risk of under-fitting representations for rare tokens. We investigate how vocabulary size impacts LLM scaling laws by training models ranging from 33M to 3B parameters on up to 500B characters with various vocabulary configurations. We propose three complementary approaches for predicting the compute-optimal vocabulary size: IsoFLOPs analysis, derivative estimation, and parametric fit of the loss function. Our approaches converge on the same result that the optimal vocabulary size depends on the available compute budget and that larger models deserve larger vocabularies. However, most LLMs use too small vocabulary sizes. For example, we predict that the optimal vocabulary size of Llama2-70B should have been at least 216K, 7 times larger than its vocabulary of 32K. We validate our predictions empirically by training models with 3B parameters across different FLOPs budgets. Adopting our predicted optimal vocabulary size consistently improves downstream performance over commonly used vocabulary sizes. By increasing the vocabulary size from the conventional 32K to 43K, we improve performance on ARC-Challenge from 29.1 to 32.0 with the same 2.3e21 FLOPs. Our work emphasizes the necessity of jointly considering model parameters and vocabulary size for efficient scaling.
PDF576November 28, 2024