Pré-entraînement de petits modèles de langage de base avec moins de tokens

papers.abstract

Nous étudions l'efficacité d'une approche simple pour développer un petit modèle de langage de base (LM) à partir d'un grand modèle de langage existant : d'abord hériter de quelques blocs de transformateurs du modèle plus grand, puis entraîner ce modèle plus petit sur un très petit sous-ensemble (0,1 %) des données brutes de pré-entraînement du modèle plus grand. Nous appelons notre recette simple Inheritune et la démontrons d'abord pour construire un petit modèle de langage de base avec 1,5 milliard de paramètres en utilisant 1 milliard de tokens (et quelques couches initiales d'un modèle plus grand de 3 milliards de paramètres) ; nous le faisons en utilisant un seul GPU A6000 pendant moins d'une demi-journée. Sur 9 ensembles de données d'évaluation divers ainsi que le benchmark MMLU, le modèle résultant se compare favorablement aux modèles de base disponibles publiquement de taille 1 à 2 milliards de paramètres, certains ayant été entraînés avec 50 à 1000 fois plus de tokens. Nous explorons Inheritune dans un contexte légèrement différent où nous entraînons de petits modèles de langage en utilisant des modèles plus grands et leur ensemble complet de données de pré-entraînement. Ici, nous montrons que des modèles de langage plus petits entraînés en utilisant certaines couches de GPT2-medium (355 millions) et GPT-2-large (770 millions) peuvent efficacement égaler la perte de validation de leurs homologues plus grands lorsqu'ils sont entraînés à partir de zéro pour le même nombre d'étapes d'entraînement sur le jeu de données OpenWebText avec 9 milliards de tokens. Nous analysons notre recette avec des expériences approfondies et démontrons son efficacité dans divers contextes. Notre code est disponible à l'adresse https://github.com/sanyalsunny111/LLM-Inheritune.

English

We study the effectiveness of a simple approach to develop a small base language model (LM) starting from an existing large base LM: first inherit a few transformer blocks from the larger LM, and then train this smaller model on a very small subset (0.1\%) of the raw pretraining data of the larger model. We call our simple recipe Inheritune and first demonstrate it for building a small base LM with 1.5B parameters using 1B tokens (and a starting few layers of larger LM of 3B parameters); we do this using a single A6000 GPU for less than half a day. Across 9 diverse evaluation datasets as well as the MMLU benchmark, the resulting model compares favorably to publicly available base models of 1B-2B size, some of which have been trained using 50-1000 times more tokens. We investigate Inheritune in a slightly different setting where we train small LMs utilizing larger LMs and their full pre-training dataset. Here we show that smaller LMs trained utilizing some of the layers of GPT2-medium (355M) and GPT-2-large (770M) can effectively match the val loss of their bigger counterparts when trained from scratch for the same number of training steps on OpenWebText dataset with 9B tokens. We analyze our recipe with extensive experiments and demonstrate it efficacy on diverse settings. Our code is available at https://github.com/sanyalsunny111/LLM-Inheritune.

Pré-entraînement de petits modèles de langage de base avec moins de tokens

Pre-training Small Base LMs with Fewer Tokens

papers.abstract

Support