Skalierung des LLM-Pretrainings mit Vokabular-Curriculum

papers.abstract

Moderne Sprachmodelle basieren auf statischen Vokabularen, die vor dem Vortraining festgelegt werden, im Gegensatz zum adaptiven Vokabularerwerb, der beim menschlichen Spracherwerb beobachtet wird. Um diese Lücke zu schließen, führen wir das Konzept des Vokabular-Curriculum-Lernens ein, einen Ansatz, der die Effizienz des Vortrainings durch logarithmisch-lineare Skalierungsgewinne in Bezug auf die Vokabulargröße verbessert. Unsere Methode wechselt zwischen entropiegesteuerter Vokabularerweiterung und Modelloptimierung, wodurch Modelle in der Lage sind, übertragbare Repräsentationen über verschiedene Tokenisierungsgranularitäten hinweg zu erlernen. Dieser Ansatz führt natürlich zu einem optimalen Muster der Rechenressourcenverteilung: längere Token erfassen vorhersehbare Inhalte, während kürzere Token sich auf komplexere, schwerer vorhersagbare Kontexte konzentrieren. Experimente mit kleinen GPT-Modellen zeigen eine verbesserte Skalierungseffizienz und unterstreichen die Wirksamkeit der dynamischen Tokenisierung. Wir veröffentlichen unseren Code, um weitere Forschung zu unterstützen, und planen, unsere Experimente auf größere Modelle und verschiedene Domänen auszuweiten.

English

Modern language models rely on static vocabularies, fixed before pretraining, in contrast to the adaptive vocabulary acquisition observed in human language learning. To bridge this gap, we introduce vocabulary curriculum learning, an approach that improves pretraining efficiency with log-linear scaling gains relative to vocabulary size. Our method alternates between entropy-guided vocabulary expansion and model optimization, enabling models to learn transferable representations across diverse tokenization granularities. This approach naturally gives rise to an optimal computation allocation pattern: longer tokens capture predictable content, while shorter tokens focus on more complex, harder-to-predict contexts. Experiments on small-scale GPT models demonstrate improved scaling efficiency, reinforcing the effectiveness of dynamic tokenization. We release our code to support further research and plan to extend our experiments to larger models and diverse domains.

Skalierung des LLM-Pretrainings mit Vokabular-Curriculum

Scaling LLM Pre-training with Vocabulary Curriculum

papers.abstract

Support