Preentrenamiento de Modelos de Lenguaje Base Pequeños con Menos Tokens

Resumen

Estudiamos la efectividad de un enfoque simple para desarrollar un modelo de lenguaje base (LM) pequeño partiendo de un LM base grande existente: primero heredamos algunos bloques de transformadores del LM más grande, y luego entrenamos este modelo más pequeño en un subconjunto muy reducido (0,1\%) de los datos de preentrenamiento crudos del modelo más grande. Llamamos a nuestra receta simple Inheritune y primero la demostramos para construir un LM base pequeño con 1.500 millones de parámetros utilizando 1.000 millones de tokens (y algunas capas iniciales de un LM más grande de 3.000 millones de parámetros); lo hacemos utilizando una sola GPU A6000 durante menos de medio día. En 9 conjuntos de datos de evaluación diversos, así como en el benchmark MMLU, el modelo resultante se compara favorablemente con modelos base disponibles públicamente de tamaño 1.000-2.000 millones de parámetros, algunos de los cuales han sido entrenados utilizando entre 50 y 1.000 veces más tokens. Investigamos Inheritune en un escenario ligeramente diferente donde entrenamos LMs pequeños utilizando LMs más grandes y su conjunto de datos de preentrenamiento completo. Aquí mostramos que LMs más pequeños entrenados utilizando algunas de las capas de GPT2-medium (355M) y GPT-2-large (770M) pueden igualar efectivamente la pérdida de validación (val loss) de sus contrapartes más grandes cuando estas son entrenadas desde cero durante el mismo número de pasos de entrenamiento en el conjunto de datos OpenWebText con 9.000 millones de tokens. Analizamos nuestra receta con experimentos extensos y demostramos su eficacia en diversos escenarios. Nuestro código está disponible en https://github.com/sanyalsunny111/LLM-Inheritune.

English

We study the effectiveness of a simple approach to develop a small base language model (LM) starting from an existing large base LM: first inherit a few transformer blocks from the larger LM, and then train this smaller model on a very small subset (0.1\%) of the raw pretraining data of the larger model. We call our simple recipe Inheritune and first demonstrate it for building a small base LM with 1.5B parameters using 1B tokens (and a starting few layers of larger LM of 3B parameters); we do this using a single A6000 GPU for less than half a day. Across 9 diverse evaluation datasets as well as the MMLU benchmark, the resulting model compares favorably to publicly available base models of 1B-2B size, some of which have been trained using 50-1000 times more tokens. We investigate Inheritune in a slightly different setting where we train small LMs utilizing larger LMs and their full pre-training dataset. Here we show that smaller LMs trained utilizing some of the layers of GPT2-medium (355M) and GPT-2-large (770M) can effectively match the val loss of their bigger counterparts when trained from scratch for the same number of training steps on OpenWebText dataset with 9B tokens. We analyze our recipe with extensive experiments and demonstrate it efficacy on diverse settings. Our code is available at https://github.com/sanyalsunny111/LLM-Inheritune.

Preentrenamiento de Modelos de Lenguaje Base Pequeños con Menos Tokens

Pre-training Small Base LMs with Fewer Tokens

Resumen

Support