Mise à l'échelle de la pré-entraînement LLM avec un programme de vocabulaire.
Scaling LLM Pre-training with Vocabulary Curriculum
February 25, 2025
Auteurs: Fangyuan Yu
cs.AI
Résumé
Les modèles de langage modernes reposent sur des vocabulaires statiques, fixés avant l'entraînement, contrairement à l'acquisition de vocabulaire adaptative observée dans l'apprentissage du langage humain. Pour combler ce fossé, nous introduisons l'apprentissage de curriculum de vocabulaire, une approche qui améliore l'efficacité de l'entraînement préalable avec des gains d'échelle logarithmique par rapport à la taille du vocabulaire. Notre méthode alterne entre l'expansion du vocabulaire guidée par l'entropie et l'optimisation du modèle, permettant aux modèles d'apprendre des représentations transférables à travers diverses granularités de tokenisation. Cette approche donne naturellement lieu à un schéma optimal d'allocation de calcul : les tokens plus longs capturent un contenu prévisible, tandis que les tokens plus courts se concentrent sur des contextes plus complexes et plus difficiles à prédire. Des expériences sur des modèles GPT à petite échelle démontrent une efficacité d'échelle améliorée, renforçant l'efficacité de la tokenisation dynamique. Nous mettons notre code à disposition pour soutenir de futures recherches et prévoyons d'étendre nos expériences à des modèles plus grands et à des domaines diversifiés.
English
Modern language models rely on static vocabularies, fixed before pretraining,
in contrast to the adaptive vocabulary acquisition observed in human language
learning. To bridge this gap, we introduce vocabulary curriculum learning, an
approach that improves pretraining efficiency with log-linear scaling gains
relative to vocabulary size. Our method alternates between entropy-guided
vocabulary expansion and model optimization, enabling models to learn
transferable representations across diverse tokenization granularities. This
approach naturally gives rise to an optimal computation allocation pattern:
longer tokens capture predictable content, while shorter tokens focus on more
complex, harder-to-predict contexts. Experiments on small-scale GPT models
demonstrate improved scaling efficiency, reinforcing the effectiveness of
dynamic tokenization. We release our code to support further research and plan
to extend our experiments to larger models and diverse domains.Summary
AI-Generated Summary