ChatPaper.aiChatPaper

Lois d'échelle avec le vocabulaire : Les modèles plus grands méritent des vocabulaires plus étendus

Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

July 18, 2024
Auteurs: Chaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong
cs.AI

Résumé

Les recherches sur la mise à l'échelle des grands modèles de langage (LLMs) se sont principalement concentrées sur les paramètres du modèle et la taille des données d'entraînement, négligeant le rôle de la taille du vocabulaire. Intuitivement, des vocabulaires plus grands permettent une tokenisation plus efficace en représentant les phrases avec moins de tokens, mais ils augmentent également le risque de sous-ajustement des représentations pour les tokens rares. Nous étudions comment la taille du vocabulaire influence les lois de mise à l'échelle des LLMs en entraînant des modèles allant de 33M à 3B de paramètres sur jusqu'à 500B de caractères avec diverses configurations de vocabulaire. Nous proposons trois approches complémentaires pour prédire la taille optimale du vocabulaire en termes de calcul : l'analyse IsoFLOPs, l'estimation des dérivées et l'ajustement paramétrique de la fonction de perte. Nos approches convergent vers le même résultat : la taille optimale du vocabulaire dépend du budget de calcul disponible et les modèles plus grands méritent des vocabulaires plus étendus. Cependant, la plupart des LLMs utilisent des vocabulaires trop petits. Par exemple, nous prédisons que la taille optimale du vocabulaire de Llama2-70B aurait dû être d'au moins 216K, soit 7 fois plus grande que son vocabulaire de 32K. Nous validons empiriquement nos prédictions en entraînant des modèles de 3B de paramètres avec différents budgets de FLOPs. L'adoption de notre taille de vocabulaire optimale prédite améliore systématiquement les performances en aval par rapport aux tailles de vocabulaire couramment utilisées. En augmentant la taille du vocabulaire de 32K à 43K, nous améliorons les performances sur ARC-Challenge de 29,1 à 32,0 avec les mêmes 2,3e21 FLOPs. Notre travail souligne la nécessité de considérer conjointement les paramètres du modèle et la taille du vocabulaire pour une mise à l'échelle efficace.
English
Research on scaling large language models (LLMs) has primarily focused on model parameters and training data size, overlooking the role of vocabulary size. % Intuitively, larger vocabularies enable more efficient tokenization by representing sentences with fewer tokens, but they also increase the risk of under-fitting representations for rare tokens. We investigate how vocabulary size impacts LLM scaling laws by training models ranging from 33M to 3B parameters on up to 500B characters with various vocabulary configurations. We propose three complementary approaches for predicting the compute-optimal vocabulary size: IsoFLOPs analysis, derivative estimation, and parametric fit of the loss function. Our approaches converge on the same result that the optimal vocabulary size depends on the available compute budget and that larger models deserve larger vocabularies. However, most LLMs use too small vocabulary sizes. For example, we predict that the optimal vocabulary size of Llama2-70B should have been at least 216K, 7 times larger than its vocabulary of 32K. We validate our predictions empirically by training models with 3B parameters across different FLOPs budgets. Adopting our predicted optimal vocabulary size consistently improves downstream performance over commonly used vocabulary sizes. By increasing the vocabulary size from the conventional 32K to 43K, we improve performance on ARC-Challenge from 29.1 to 32.0 with the same 2.3e21 FLOPs. Our work emphasizes the necessity of jointly considering model parameters and vocabulary size for efficient scaling.

Summary

AI-Generated Summary

PDF576November 28, 2024