ChatPaper.aiChatPaper

Languini Kitchen: поддержка исследований в области языкового моделирования на различных уровнях вычислительных ресурсов

The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute

September 20, 2023
Авторы: Aleksandar Stanić, Dylan Ashley, Oleg Serikov, Louis Kirsch, Francesco Faccio, Jürgen Schmidhuber, Thomas Hofmann, Imanol Schlag
cs.AI

Аннотация

Languini Kitchen представляет собой как исследовательское сообщество, так и кодобазу, предназначенные для того, чтобы дать исследователям с ограниченными вычислительными ресурсами возможность вносить значимый вклад в область языкового моделирования. Мы представляем экспериментальный протокол, который позволяет сравнивать модели на основе эквивалентных вычислительных ресурсов, измеряемых в часах работы акселераторов. Количество токенов, на которых обучается модель, определяется её пропускной способностью и выбранным классом вычислительных ресурсов. Важно отметить, что этот подход избегает ограничений на ключевые гиперпараметры, которые влияют на общее количество параметров или количество операций с плавающей запятой. Для оценки мы предварительно обрабатываем существующий большой, разнообразный и высококачественный набор данных книг, который превосходит существующие академические бенчмарки по качеству, разнообразию и длине документов. На этом наборе данных мы сравниваем методы на основе их эмпирических законов масштабирования, которые оцениваются через эксперименты на различных уровнях вычислительных ресурсов. Эта работа также предоставляет две базовые модели: прямую модель, основанную на архитектуре GPT-2, и рекуррентную модель в виде новой LSTM с десятикратной пропускной способностью. Хотя базовая модель GPT демонстрирует лучшую перплексию на всех уровнях вычислительных ресурсов, наша базовая LSTM модель показывает предсказуемый и более благоприятный закон масштабирования. Это связано с улучшенной пропускной способностью и меньшим количеством токенов, необходимых для достижения того же снижения тестовой перплексии. Экстраполяция законов масштабирования обеих моделей приводит к пересечению примерно на 50 000 часов работы акселераторов. Мы надеемся, что эта работа может послужить основой для значимых и воспроизводимых исследований в области языкового моделирования.
English
The Languini Kitchen serves as both a research collective and codebase designed to empower researchers with limited computational resources to contribute meaningfully to the field of language modelling. We introduce an experimental protocol that enables model comparisons based on equivalent compute, measured in accelerator hours. The number of tokens on which a model is trained is defined by the model's throughput and the chosen compute class. Notably, this approach avoids constraints on critical hyperparameters which affect total parameters or floating-point operations. For evaluation, we pre-process an existing large, diverse, and high-quality dataset of books that surpasses existing academic benchmarks in quality, diversity, and document length. On it, we compare methods based on their empirical scaling trends which are estimated through experiments at various levels of compute. This work also provides two baseline models: a feed-forward model derived from the GPT-2 architecture and a recurrent model in the form of a novel LSTM with ten-fold throughput. While the GPT baseline achieves better perplexity throughout all our levels of compute, our LSTM baseline exhibits a predictable and more favourable scaling law. This is due to the improved throughput and the need for fewer training tokens to achieve the same decrease in test perplexity. Extrapolating the scaling laws leads of both models results in an intersection at roughly 50,000 accelerator hours. We hope this work can serve as the foundation for meaningful and reproducible language modelling research.
PDF51December 15, 2024