Skalierung des LLM-Pretrainings mit Vokabular-Curriculum
Scaling LLM Pre-training with Vocabulary Curriculum
February 25, 2025
Autoren: Fangyuan Yu
cs.AI
Zusammenfassung
Moderne Sprachmodelle basieren auf statischen Vokabularen, die vor dem Vortraining festgelegt werden, im Gegensatz zum adaptiven Vokabularerwerb, der beim menschlichen Spracherwerb beobachtet wird. Um diese Lücke zu schließen, führen wir das Konzept des Vokabular-Curriculum-Lernens ein, einen Ansatz, der die Effizienz des Vortrainings durch logarithmisch-lineare Skalierungsgewinne in Bezug auf die Vokabulargröße verbessert. Unsere Methode wechselt zwischen entropiegesteuerter Vokabularerweiterung und Modelloptimierung, wodurch Modelle in der Lage sind, übertragbare Repräsentationen über verschiedene Tokenisierungsgranularitäten hinweg zu erlernen. Dieser Ansatz führt natürlich zu einem optimalen Muster der Rechenressourcenverteilung: längere Token erfassen vorhersehbare Inhalte, während kürzere Token sich auf komplexere, schwerer vorhersagbare Kontexte konzentrieren. Experimente mit kleinen GPT-Modellen zeigen eine verbesserte Skalierungseffizienz und unterstreichen die Wirksamkeit der dynamischen Tokenisierung. Wir veröffentlichen unseren Code, um weitere Forschung zu unterstützen, und planen, unsere Experimente auf größere Modelle und verschiedene Domänen auszuweiten.
English
Modern language models rely on static vocabularies, fixed before pretraining,
in contrast to the adaptive vocabulary acquisition observed in human language
learning. To bridge this gap, we introduce vocabulary curriculum learning, an
approach that improves pretraining efficiency with log-linear scaling gains
relative to vocabulary size. Our method alternates between entropy-guided
vocabulary expansion and model optimization, enabling models to learn
transferable representations across diverse tokenization granularities. This
approach naturally gives rise to an optimal computation allocation pattern:
longer tokens capture predictable content, while shorter tokens focus on more
complex, harder-to-predict contexts. Experiments on small-scale GPT models
demonstrate improved scaling efficiency, reinforcing the effectiveness of
dynamic tokenization. We release our code to support further research and plan
to extend our experiments to larger models and diverse domains.Summary
AI-Generated Summary