Предварительное обучение небольших базовых языковых моделей с меньшим количеством токенов.

Аннотация

Мы изучаем эффективность простого подхода к разработке небольшой базовой модели языка (LM) на основе существующей крупной базовой LM: сначала наследуем несколько блоков трансформера из более крупной LM, а затем обучаем эту более маленькую модель на очень маленьком подмножестве (0.1\%) исходных данных предварительного обучения более крупной модели. Мы называем наш простой рецепт Inheritune и сначала демонстрируем его для создания небольшой базовой LM с 1.5 миллиарда параметров, используя 1 миллиард токенов (и начальные несколько слоев более крупной LM с 3 миллиардами параметров); мы делаем это, используя одну GPU A6000 менее полудня. На 9 разнообразных наборах данных для оценки, а также на бенчмарке MMLU, полученная модель сравнительно благоприятно сравнивается с публично доступными базовыми моделями размером 1-2 миллиарда, некоторые из которых были обучены с использованием в 50-1000 раз большего количества токенов. Мы исследуем Inheritune в немного другом контексте, где мы обучаем небольшие LM, используя более крупные LM и их полный набор данных предварительного обучения. Здесь мы показываем, что более маленькие LM, обученные с использованием некоторых слоев GPT2-medium (355M) и GPT-2-large (770M), могут эффективно соответствовать val loss их более крупным аналогам, когда их обучают с нуля на том же количестве шагов обучения на наборе данных OpenWebText с 9 миллиардами токенов. Мы анализируем наш рецепт с помощью обширных экспериментов и демонстрируем его эффективность в различных сценариях. Наш код доступен по адресу https://github.com/sanyalsunny111/LLM-Inheritune.

English

We study the effectiveness of a simple approach to develop a small base language model (LM) starting from an existing large base LM: first inherit a few transformer blocks from the larger LM, and then train this smaller model on a very small subset (0.1\%) of the raw pretraining data of the larger model. We call our simple recipe Inheritune and first demonstrate it for building a small base LM with 1.5B parameters using 1B tokens (and a starting few layers of larger LM of 3B parameters); we do this using a single A6000 GPU for less than half a day. Across 9 diverse evaluation datasets as well as the MMLU benchmark, the resulting model compares favorably to publicly available base models of 1B-2B size, some of which have been trained using 50-1000 times more tokens. We investigate Inheritune in a slightly different setting where we train small LMs utilizing larger LMs and their full pre-training dataset. Here we show that smaller LMs trained utilizing some of the layers of GPT2-medium (355M) and GPT-2-large (770M) can effectively match the val loss of their bigger counterparts when trained from scratch for the same number of training steps on OpenWebText dataset with 9B tokens. We analyze our recipe with extensive experiments and demonstrate it efficacy on diverse settings. Our code is available at https://github.com/sanyalsunny111/LLM-Inheritune.

Предварительное обучение небольших базовых языковых моделей с меньшим количеством токенов.

Pre-training Small Base LMs with Fewer Tokens

Аннотация

Support