Languini Kitchen: поддержка исследований в области языкового моделирования на различных уровнях вычислительных ресурсов
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute
September 20, 2023
Авторы: Aleksandar Stanić, Dylan Ashley, Oleg Serikov, Louis Kirsch, Francesco Faccio, Jürgen Schmidhuber, Thomas Hofmann, Imanol Schlag
cs.AI
Аннотация
Languini Kitchen представляет собой как исследовательское сообщество, так и кодобазу, предназначенные для того, чтобы дать исследователям с ограниченными вычислительными ресурсами возможность вносить значимый вклад в область языкового моделирования. Мы представляем экспериментальный протокол, который позволяет сравнивать модели на основе эквивалентных вычислительных ресурсов, измеряемых в часах работы акселераторов. Количество токенов, на которых обучается модель, определяется её пропускной способностью и выбранным классом вычислительных ресурсов. Важно отметить, что этот подход избегает ограничений на ключевые гиперпараметры, которые влияют на общее количество параметров или количество операций с плавающей запятой. Для оценки мы предварительно обрабатываем существующий большой, разнообразный и высококачественный набор данных книг, который превосходит существующие академические бенчмарки по качеству, разнообразию и длине документов. На этом наборе данных мы сравниваем методы на основе их эмпирических законов масштабирования, которые оцениваются через эксперименты на различных уровнях вычислительных ресурсов. Эта работа также предоставляет две базовые модели: прямую модель, основанную на архитектуре GPT-2, и рекуррентную модель в виде новой LSTM с десятикратной пропускной способностью. Хотя базовая модель GPT демонстрирует лучшую перплексию на всех уровнях вычислительных ресурсов, наша базовая LSTM модель показывает предсказуемый и более благоприятный закон масштабирования. Это связано с улучшенной пропускной способностью и меньшим количеством токенов, необходимых для достижения того же снижения тестовой перплексии. Экстраполяция законов масштабирования обеих моделей приводит к пересечению примерно на 50 000 часов работы акселераторов. Мы надеемся, что эта работа может послужить основой для значимых и воспроизводимых исследований в области языкового моделирования.
English
The Languini Kitchen serves as both a research collective and codebase
designed to empower researchers with limited computational resources to
contribute meaningfully to the field of language modelling. We introduce an
experimental protocol that enables model comparisons based on equivalent
compute, measured in accelerator hours. The number of tokens on which a model
is trained is defined by the model's throughput and the chosen compute class.
Notably, this approach avoids constraints on critical hyperparameters which
affect total parameters or floating-point operations. For evaluation, we
pre-process an existing large, diverse, and high-quality dataset of books that
surpasses existing academic benchmarks in quality, diversity, and document
length. On it, we compare methods based on their empirical scaling trends which
are estimated through experiments at various levels of compute. This work also
provides two baseline models: a feed-forward model derived from the GPT-2
architecture and a recurrent model in the form of a novel LSTM with ten-fold
throughput. While the GPT baseline achieves better perplexity throughout all
our levels of compute, our LSTM baseline exhibits a predictable and more
favourable scaling law. This is due to the improved throughput and the need for
fewer training tokens to achieve the same decrease in test perplexity.
Extrapolating the scaling laws leads of both models results in an intersection
at roughly 50,000 accelerator hours. We hope this work can serve as the
foundation for meaningful and reproducible language modelling research.