Mise à l'échelle de la pré-entraînement LLM avec un programme de vocabulaire.

papers.abstract

Les modèles de langage modernes reposent sur des vocabulaires statiques, fixés avant l'entraînement, contrairement à l'acquisition de vocabulaire adaptative observée dans l'apprentissage du langage humain. Pour combler ce fossé, nous introduisons l'apprentissage de curriculum de vocabulaire, une approche qui améliore l'efficacité de l'entraînement préalable avec des gains d'échelle logarithmique par rapport à la taille du vocabulaire. Notre méthode alterne entre l'expansion du vocabulaire guidée par l'entropie et l'optimisation du modèle, permettant aux modèles d'apprendre des représentations transférables à travers diverses granularités de tokenisation. Cette approche donne naturellement lieu à un schéma optimal d'allocation de calcul : les tokens plus longs capturent un contenu prévisible, tandis que les tokens plus courts se concentrent sur des contextes plus complexes et plus difficiles à prédire. Des expériences sur des modèles GPT à petite échelle démontrent une efficacité d'échelle améliorée, renforçant l'efficacité de la tokenisation dynamique. Nous mettons notre code à disposition pour soutenir de futures recherches et prévoyons d'étendre nos expériences à des modèles plus grands et à des domaines diversifiés.

English

Modern language models rely on static vocabularies, fixed before pretraining, in contrast to the adaptive vocabulary acquisition observed in human language learning. To bridge this gap, we introduce vocabulary curriculum learning, an approach that improves pretraining efficiency with log-linear scaling gains relative to vocabulary size. Our method alternates between entropy-guided vocabulary expansion and model optimization, enabling models to learn transferable representations across diverse tokenization granularities. This approach naturally gives rise to an optimal computation allocation pattern: longer tokens capture predictable content, while shorter tokens focus on more complex, harder-to-predict contexts. Experiments on small-scale GPT models demonstrate improved scaling efficiency, reinforcing the effectiveness of dynamic tokenization. We release our code to support further research and plan to extend our experiments to larger models and diverse domains.

Mise à l'échelle de la pré-entraînement LLM avec un programme de vocabulaire.

Scaling LLM Pre-training with Vocabulary Curriculum

papers.abstract

Support