Skalengesetze mit Vokabular: Größere Modelle verdienen größere Vokabulare.
Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies
July 18, 2024
Autoren: Chaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong
cs.AI
Zusammenfassung
Die Forschung zur Skalierung großer Sprachmodelle (LLMs) hat sich hauptsächlich auf Modellparameter und Trainingsdatengröße konzentriert und die Rolle der Vokabellänge vernachlässigt. Größere Vokabulare ermöglichen intuitiv eine effizientere Tokenisierung, indem Sätze mit weniger Tokens dargestellt werden, erhöhen jedoch auch das Risiko einer Unteranpassung von Darstellungen für seltene Tokens. Wir untersuchen, wie die Vokabellänge die Skalierungsgesetze von LLMs beeinflusst, indem wir Modelle mit 33M bis 3B Parametern auf bis zu 500B Zeichen mit verschiedenen Vokabulkonfigurationen trainieren. Wir schlagen drei ergänzende Ansätze zur Vorhersage der rechenoptimalen Vokabellänge vor: IsoFLOPs-Analyse, Ableitungsschätzung und parametrische Anpassung der Verlustfunktion. Unsere Ansätze konvergieren auf dasselbe Ergebnis, dass die optimale Vokabellänge vom verfügbaren Rechenbudget abhängt und dass größere Modelle größere Vokabulare verdienen. Die meisten LLMs verwenden jedoch zu kleine Vokabulargrößen. Zum Beispiel sagen wir voraus, dass die optimale Vokabellänge von Llama2-70B mindestens 216K hätte betragen sollen, 7-mal größer als sein Vokabular von 32K. Wir validieren unsere Vorhersagen empirisch, indem wir Modelle mit 3B Parametern über verschiedene FLOPs-Budgets trainieren. Die konsistente Übernahme unserer vorhergesagten optimalen Vokabellänge verbessert die Leistung nachgelagerter Prozesse gegenüber häufig verwendeten Vokabulargrößen. Durch Erhöhung der Vokabellänge von den herkömmlichen 32K auf 43K verbessern wir die Leistung bei ARC-Challenge von 29.1 auf 32.0 bei denselben 2.3e21 FLOPs. Unsere Arbeit betont die Notwendigkeit, Modellparameter und Vokabellänge gemeinsam für eine effiziente Skalierung in Betracht zu ziehen.
English
Research on scaling large language models (LLMs) has primarily focused on
model parameters and training data size, overlooking the role of vocabulary
size. % Intuitively, larger vocabularies enable more efficient tokenization by
representing sentences with fewer tokens, but they also increase the risk of
under-fitting representations for rare tokens. We investigate how vocabulary
size impacts LLM scaling laws by training models ranging from 33M to 3B
parameters on up to 500B characters with various vocabulary configurations. We
propose three complementary approaches for predicting the compute-optimal
vocabulary size: IsoFLOPs analysis, derivative estimation, and parametric fit
of the loss function. Our approaches converge on the same result that the
optimal vocabulary size depends on the available compute budget and that larger
models deserve larger vocabularies. However, most LLMs use too small vocabulary
sizes. For example, we predict that the optimal vocabulary size of Llama2-70B
should have been at least 216K, 7 times larger than its vocabulary of 32K. We
validate our predictions empirically by training models with 3B parameters
across different FLOPs budgets. Adopting our predicted optimal vocabulary size
consistently improves downstream performance over commonly used vocabulary
sizes. By increasing the vocabulary size from the conventional 32K to 43K, we
improve performance on ARC-Challenge from 29.1 to 32.0 with the same 2.3e21
FLOPs. Our work emphasizes the necessity of jointly considering model
parameters and vocabulary size for efficient scaling.Summary
AI-Generated Summary