Pre-training van kleine basis taalmodellen met minder tokens

Samenvatting

We onderzoeken de effectiviteit van een eenvoudige aanpak om een klein basis taalmodel (LM) te ontwikkelen, uitgaande van een bestaand groot basis LM: eerst enkele transformerblokken overnemen van het grotere LM, en vervolgens dit kleinere model trainen op een zeer kleine subset (0,1\%) van de ruwe pretrainingsgegevens van het grotere model. We noemen ons eenvoudige recept Inheritune en demonstreren het eerst voor het bouwen van een klein basis LM met 1,5B parameters met behulp van 1B tokens (en een start van enkele lagen van een groter LM van 3B parameters); we doen dit met een enkele A6000 GPU in minder dan een halve dag. Over 9 diverse evaluatiedatasets en de MMLU-benchmark heen, presteert het resulterende model gunstig in vergelijking met publiek beschikbare basismodellen van 1B-2B grootte, waarvan sommige zijn getraind met 50-1000 keer meer tokens. We onderzoeken Inheritune in een iets andere setting waar we kleine LM's trainen met behulp van grotere LM's en hun volledige pretrainingsdataset. Hier laten we zien dat kleinere LM's die zijn getraind met behulp van enkele lagen van GPT2-medium (355M) en GPT-2-large (770M) effectief de val-verlieswaarde van hun grotere tegenhangers kunnen evenaren wanneer ze vanaf nul worden getraind voor hetzelfde aantal trainingsstappen op de OpenWebText-dataset met 9B tokens. We analyseren ons recept met uitgebreide experimenten en demonstreren de effectiviteit ervan in diverse settings. Onze code is beschikbaar op https://github.com/sanyalsunny111/LLM-Inheritune.

English

We study the effectiveness of a simple approach to develop a small base language model (LM) starting from an existing large base LM: first inherit a few transformer blocks from the larger LM, and then train this smaller model on a very small subset (0.1\%) of the raw pretraining data of the larger model. We call our simple recipe Inheritune and first demonstrate it for building a small base LM with 1.5B parameters using 1B tokens (and a starting few layers of larger LM of 3B parameters); we do this using a single A6000 GPU for less than half a day. Across 9 diverse evaluation datasets as well as the MMLU benchmark, the resulting model compares favorably to publicly available base models of 1B-2B size, some of which have been trained using 50-1000 times more tokens. We investigate Inheritune in a slightly different setting where we train small LMs utilizing larger LMs and their full pre-training dataset. Here we show that smaller LMs trained utilizing some of the layers of GPT2-medium (355M) and GPT-2-large (770M) can effectively match the val loss of their bigger counterparts when trained from scratch for the same number of training steps on OpenWebText dataset with 9B tokens. We analyze our recipe with extensive experiments and demonstrate it efficacy on diverse settings. Our code is available at https://github.com/sanyalsunny111/LLM-Inheritune.

Pre-training van kleine basis taalmodellen met minder tokens

Pre-training Small Base LMs with Fewer Tokens

Samenvatting

Support