Языковые модели надежно масштабируются при избыточном обучении и на последующих задачах.

Аннотация

Законы масштабирования являются полезными руководствами для разработки языковых моделей, однако все еще существуют разрывы между текущими исследованиями масштабирования и тем, как в конечном итоге происходит обучение и оценка языковых моделей. Например, масштабирование обычно изучается в режиме оптимального вычисления обучения (т.е. режим "оптимальный для шиншиллы"); однако на практике модели часто переобучаются для снижения затрат на вывод. Более того, законы масштабирования в основном предсказывают потери при предсказании следующего токена, но в конечном итоге модели сравниваются на основе производительности на задачах последующего использования. В данной статье мы решаем оба недостатка. Для этого мы создаем набор из 104 моделей с 0.011B до 6.9B параметров, обученных с различным количеством токенов на трех распределениях данных. Во-первых, мы исследуем масштабирование в режиме переобучения. Мы подгоняем законы масштабирования, которые экстраполируются как по количеству параметров модели, так и по соотношению обучающих токенов к параметрам. Это позволяет нам предсказать потери на валидации для запуска с 1.4B параметрами и 900B токенами (т.е. переобучение в 32 раза) и для запуска с 6.9B параметрами и 138B токенами — каждый из экспериментов требует в 300 раз меньше вычислительных ресурсов. Во-вторых, мы связываем непонимание языка модели с ее производительностью на задачах последующего использования через степенной закон. Мы используем этот закон для прогнозирования ошибки top-1, усредненной по задачам последующего использования, для двух вышеупомянутых моделей, используя эксперименты, требующие в 20 раз меньше вычислительных ресурсов. Наши эксперименты доступны по адресу https://github.com/mlfoundations/scaling.

English

Scaling laws are useful guides for developing language models, but there are still gaps between current scaling studies and how language models are ultimately trained and evaluated. For instance, scaling is usually studied in the compute-optimal training regime (i.e., "Chinchilla optimal" regime); however, in practice, models are often over-trained to reduce inference costs. Moreover, scaling laws mostly predict loss on next-token prediction, but ultimately models are compared based on downstream task performance. In this paper, we address both shortcomings. To do so, we create a testbed of 104 models with 0.011B to 6.9B parameters trained with various numbers of tokens on three data distributions. First, we investigate scaling in the over-trained regime. We fit scaling laws that extrapolate in both the number of model parameters and the ratio of training tokens to parameters. This enables us to predict the validation loss of a 1.4B parameter, 900B token run (i.e., 32times over-trained) and a 6.9B parameter, 138B token runx2014each from experiments that take 300times less compute. Second, we relate the perplexity of a language model to its downstream task performance via a power law. We use this law to predict top-1 error averaged over downstream tasks for the two aforementioned models using experiments that take 20times less compute. Our experiments are available at https://github.com/mlfoundations/scaling.

Языковые модели надежно масштабируются при избыточном обучении и на последующих задачах.

Language models scale reliably with over-training and on downstream tasks

Аннотация

Support