Pré-entraînement de petits modèles de langage de base avec moins de tokensPre-training Small Base LMs with Fewer Tokens
Nous étudions l'efficacité d'une approche simple pour développer un petit modèle de langage de base (LM) à partir d'un grand modèle de langage existant : d'abord hériter de quelques blocs de transformateurs du modèle plus grand, puis entraîner ce modèle plus petit sur un très petit sous-ensemble (0,1 %) des données brutes de pré-entraînement du modèle plus grand. Nous appelons notre recette simple Inheritune et la démontrons d'abord pour construire un petit modèle de langage de base avec 1,5 milliard de paramètres en utilisant 1 milliard de tokens (et quelques couches initiales d'un modèle plus grand de 3 milliards de paramètres) ; nous le faisons en utilisant un seul GPU A6000 pendant moins d'une demi-journée. Sur 9 ensembles de données d'évaluation divers ainsi que le benchmark MMLU, le modèle résultant se compare favorablement aux modèles de base disponibles publiquement de taille 1 à 2 milliards de paramètres, certains ayant été entraînés avec 50 à 1000 fois plus de tokens. Nous explorons Inheritune dans un contexte légèrement différent où nous entraînons de petits modèles de langage en utilisant des modèles plus grands et leur ensemble complet de données de pré-entraînement. Ici, nous montrons que des modèles de langage plus petits entraînés en utilisant certaines couches de GPT2-medium (355 millions) et GPT-2-large (770 millions) peuvent efficacement égaler la perte de validation de leurs homologues plus grands lorsqu'ils sont entraînés à partir de zéro pour le même nombre d'étapes d'entraînement sur le jeu de données OpenWebText avec 9 milliards de tokens. Nous analysons notre recette avec des expériences approfondies et démontrons son efficacité dans divers contextes. Notre code est disponible à l'adresse https://github.com/sanyalsunny111/LLM-Inheritune.