A Cozinha Languini: Facilitando a Pesquisa em Modelagem de Linguagem em Diferentes Escalas de Computação
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute
September 20, 2023
Autores: Aleksandar Stanić, Dylan Ashley, Oleg Serikov, Louis Kirsch, Francesco Faccio, Jürgen Schmidhuber, Thomas Hofmann, Imanol Schlag
cs.AI
Resumo
A Languini Kitchen funciona tanto como um coletivo de pesquisa quanto como uma base de código projetada para capacitar pesquisadores com recursos computacionais limitados a contribuir de forma significativa para o campo de modelagem de linguagem. Introduzimos um protocolo experimental que permite comparações de modelos com base em computação equivalente, medida em horas de acelerador. O número de tokens em que um modelo é treinado é definido pela taxa de processamento do modelo e pela classe de computação escolhida. Notavelmente, essa abordagem evita restrições em hiperparâmetros críticos que afetam o número total de parâmetros ou operações de ponto flutuante. Para avaliação, pré-processamos um conjunto de dados grande, diverso e de alta qualidade de livros que supera os benchmarks acadêmicos existentes em qualidade, diversidade e comprimento de documento. Nele, comparamos métodos com base em suas tendências de escalonamento empírico, que são estimadas por meio de experimentos em vários níveis de computação. Este trabalho também fornece dois modelos de referência: um modelo feed-forward derivado da arquitetura GPT-2 e um modelo recorrente na forma de um novo LSTM com taxa de processamento dez vezes maior. Embora o modelo de referência GPT alcance melhor perplexidade em todos os nossos níveis de computação, nosso modelo de referência LSTM exibe uma lei de escalonamento previsível e mais favorável. Isso se deve à taxa de processamento aprimorada e à necessidade de menos tokens de treinamento para alcançar a mesma redução na perplexidade de teste. A extrapolação das leis de escalonamento de ambos os modelos resulta em uma interseção em aproximadamente 50.000 horas de acelerador. Esperamos que este trabalho possa servir como base para pesquisas significativas e reproduzíveis em modelagem de linguagem.
English
The Languini Kitchen serves as both a research collective and codebase
designed to empower researchers with limited computational resources to
contribute meaningfully to the field of language modelling. We introduce an
experimental protocol that enables model comparisons based on equivalent
compute, measured in accelerator hours. The number of tokens on which a model
is trained is defined by the model's throughput and the chosen compute class.
Notably, this approach avoids constraints on critical hyperparameters which
affect total parameters or floating-point operations. For evaluation, we
pre-process an existing large, diverse, and high-quality dataset of books that
surpasses existing academic benchmarks in quality, diversity, and document
length. On it, we compare methods based on their empirical scaling trends which
are estimated through experiments at various levels of compute. This work also
provides two baseline models: a feed-forward model derived from the GPT-2
architecture and a recurrent model in the form of a novel LSTM with ten-fold
throughput. While the GPT baseline achieves better perplexity throughout all
our levels of compute, our LSTM baseline exhibits a predictable and more
favourable scaling law. This is due to the improved throughput and the need for
fewer training tokens to achieve the same decrease in test perplexity.
Extrapolating the scaling laws leads of both models results in an intersection
at roughly 50,000 accelerator hours. We hope this work can serve as the
foundation for meaningful and reproducible language modelling research.