Pre-addestramento di piccoli modelli linguistici di base con meno token

Abstract

Studiamo l'efficacia di un approccio semplice per sviluppare un piccolo modello linguistico di base (LM) partendo da un modello linguistico di base più grande esistente: prima ereditiamo alcuni blocchi transformer dal modello più grande, e poi addestriamo questo modello più piccolo su un sottoinsieme molto ridotto (0,1%) dei dati grezzi di pre-addestramento del modello più grande. Chiamiamo la nostra semplice ricetta Inheritune e la dimostriamo inizialmente per costruire un piccolo modello linguistico di base con 1,5 miliardi di parametri utilizzando 1 miliardo di token (e alcuni strati iniziali di un modello più grande da 3 miliardi di parametri); lo facciamo utilizzando una singola GPU A6000 per meno di mezza giornata. Su 9 diversi dataset di valutazione, così come sul benchmark MMLU, il modello risultante si confronta favorevolmente con i modelli di base pubblicamente disponibili di dimensioni comprese tra 1 e 2 miliardi di parametri, alcuni dei quali sono stati addestrati utilizzando 50-1000 volte più token. Esploriamo Inheritune in un contesto leggermente diverso, in cui addestriamo piccoli LM sfruttando modelli LM più grandi e il loro intero dataset di pre-addestramento. Qui dimostriamo che i modelli LM più piccoli addestrati utilizzando alcuni strati di GPT2-medium (355 milioni di parametri) e GPT-2-large (770 milioni di parametri) possono eguagliare efficacemente la perdita di validazione (val loss) delle loro controparti più grandi quando addestrati da zero per lo stesso numero di passi di addestramento sul dataset OpenWebText con 9 miliardi di token. Analizziamo la nostra ricetta con esperimenti estesi e ne dimostriamo l'efficacia in contesti diversi. Il nostro codice è disponibile all'indirizzo https://github.com/sanyalsunny111/LLM-Inheritune.

English

We study the effectiveness of a simple approach to develop a small base language model (LM) starting from an existing large base LM: first inherit a few transformer blocks from the larger LM, and then train this smaller model on a very small subset (0.1\%) of the raw pretraining data of the larger model. We call our simple recipe Inheritune and first demonstrate it for building a small base LM with 1.5B parameters using 1B tokens (and a starting few layers of larger LM of 3B parameters); we do this using a single A6000 GPU for less than half a day. Across 9 diverse evaluation datasets as well as the MMLU benchmark, the resulting model compares favorably to publicly available base models of 1B-2B size, some of which have been trained using 50-1000 times more tokens. We investigate Inheritune in a slightly different setting where we train small LMs utilizing larger LMs and their full pre-training dataset. Here we show that smaller LMs trained utilizing some of the layers of GPT2-medium (355M) and GPT-2-large (770M) can effectively match the val loss of their bigger counterparts when trained from scratch for the same number of training steps on OpenWebText dataset with 9B tokens. We analyze our recipe with extensive experiments and demonstrate it efficacy on diverse settings. Our code is available at https://github.com/sanyalsunny111/LLM-Inheritune.

Pre-addestramento di piccoli modelli linguistici di base con meno token

Pre-training Small Base LMs with Fewer Tokens

Abstract

Support