Skalengesetze mit Vokabular: Größere Modelle verdienen größere Vokabulare.Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies
Die Forschung zur Skalierung großer Sprachmodelle (LLMs) hat sich hauptsächlich auf Modellparameter und Trainingsdatengröße konzentriert und die Rolle der Vokabellänge vernachlässigt. Größere Vokabulare ermöglichen intuitiv eine effizientere Tokenisierung, indem Sätze mit weniger Tokens dargestellt werden, erhöhen jedoch auch das Risiko einer Unteranpassung von Darstellungen für seltene Tokens. Wir untersuchen, wie die Vokabellänge die Skalierungsgesetze von LLMs beeinflusst, indem wir Modelle mit 33M bis 3B Parametern auf bis zu 500B Zeichen mit verschiedenen Vokabulkonfigurationen trainieren. Wir schlagen drei ergänzende Ansätze zur Vorhersage der rechenoptimalen Vokabellänge vor: IsoFLOPs-Analyse, Ableitungsschätzung und parametrische Anpassung der Verlustfunktion. Unsere Ansätze konvergieren auf dasselbe Ergebnis, dass die optimale Vokabellänge vom verfügbaren Rechenbudget abhängt und dass größere Modelle größere Vokabulare verdienen. Die meisten LLMs verwenden jedoch zu kleine Vokabulargrößen. Zum Beispiel sagen wir voraus, dass die optimale Vokabellänge von Llama2-70B mindestens 216K hätte betragen sollen, 7-mal größer als sein Vokabular von 32K. Wir validieren unsere Vorhersagen empirisch, indem wir Modelle mit 3B Parametern über verschiedene FLOPs-Budgets trainieren. Die konsistente Übernahme unserer vorhergesagten optimalen Vokabellänge verbessert die Leistung nachgelagerter Prozesse gegenüber häufig verwendeten Vokabulargrößen. Durch Erhöhung der Vokabellänge von den herkömmlichen 32K auf 43K verbessern wir die Leistung bei ARC-Challenge von 29.1 auf 32.0 bei denselben 2.3e21 FLOPs. Unsere Arbeit betont die Notwendigkeit, Modellparameter und Vokabellänge gemeinsam für eine effiziente Skalierung in Betracht zu ziehen.