Предварительное обучение небольших базовых языковых моделей с меньшим количеством токенов.Pre-training Small Base LMs with Fewer Tokens
Мы изучаем эффективность простого подхода к разработке небольшой базовой модели языка (LM) на основе существующей крупной базовой LM: сначала наследуем несколько блоков трансформера из более крупной LM, а затем обучаем эту более маленькую модель на очень маленьком подмножестве (0.1\%) исходных данных предварительного обучения более крупной модели. Мы называем наш простой рецепт Inheritune и сначала демонстрируем его для создания небольшой базовой LM с 1.5 миллиарда параметров, используя 1 миллиард токенов (и начальные несколько слоев более крупной LM с 3 миллиардами параметров); мы делаем это, используя одну GPU A6000 менее полудня. На 9 разнообразных наборах данных для оценки, а также на бенчмарке MMLU, полученная модель сравнительно благоприятно сравнивается с публично доступными базовыми моделями размером 1-2 миллиарда, некоторые из которых были обучены с использованием в 50-1000 раз большего количества токенов. Мы исследуем Inheritune в немного другом контексте, где мы обучаем небольшие LM, используя более крупные LM и их полный набор данных предварительного обучения. Здесь мы показываем, что более маленькие LM, обученные с использованием некоторых слоев GPT2-medium (355M) и GPT-2-large (770M), могут эффективно соответствовать val loss их более крупным аналогам, когда их обучают с нуля на том же количестве шагов обучения на наборе данных OpenWebText с 9 миллиардами токенов. Мы анализируем наш рецепт с помощью обширных экспериментов и демонстрируем его эффективность в различных сценариях. Наш код доступен по адресу https://github.com/sanyalsunny111/LLM-Inheritune.