De Languini Kitchen: Taalmodelleringsonderzoek mogelijk maken op verschillende schalen van rekenkracht
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute
September 20, 2023
Auteurs: Aleksandar Stanić, Dylan Ashley, Oleg Serikov, Louis Kirsch, Francesco Faccio, Jürgen Schmidhuber, Thomas Hofmann, Imanol Schlag
cs.AI
Samenvatting
De Languini Kitchen fungeert zowel als een onderzoekscollectief als een codebase
die is ontworpen om onderzoekers met beperkte rekenmiddelen in staat te stellen
zinvol bij te dragen aan het vakgebied van taalmodellering. We introduceren een
experimenteel protocol dat modelvergelijkingen mogelijk maakt op basis van
equivalente rekenkracht, gemeten in accelerator-uren. Het aantal tokens waarop
een model wordt getraind, wordt bepaald door de doorvoersnelheid van het model
en de gekozen rekenklasse. Opmerkelijk is dat deze aanpak beperkingen vermijdt
op kritieke hyperparameters die het totale aantal parameters of
zwevendekomma-bewerkingen beïnvloeden. Voor evaluatie verwerken we een bestaande
grote, diverse en hoogwaardige dataset van boeken voor, die bestaande academische
benchmarks overtreft in kwaliteit, diversiteit en documentlengte. Hierop
vergelijken we methoden op basis van hun empirische schaalwetten, die worden
geschat via experimenten op verschillende niveaus van rekenkracht. Dit werk
biedt ook twee basismodellen: een feedforward-model afgeleid van de GPT-2
architectuur en een recurrent model in de vorm van een nieuwe LSTM met een
tienvoudige doorvoersnelheid. Hoewel het GPT-basismodel betere perplexiteit
behaalt op al onze niveaus van rekenkracht, vertoont ons LSTM-basismodel een
voorspelbare en gunstigere schaalwet. Dit komt door de verbeterde doorvoersnelheid
en de behoefte aan minder trainings-tokens om dezelfde daling in testperplexiteit
te bereiken. Extrapolatie van de schaalwetten van beide modellen resulteert in
een snijpunt bij ongeveer 50.000 accelerator-uren. We hopen dat dit werk kan
dienen als basis voor zinvol en reproduceerbaar onderzoek naar taalmodellering.
English
The Languini Kitchen serves as both a research collective and codebase
designed to empower researchers with limited computational resources to
contribute meaningfully to the field of language modelling. We introduce an
experimental protocol that enables model comparisons based on equivalent
compute, measured in accelerator hours. The number of tokens on which a model
is trained is defined by the model's throughput and the chosen compute class.
Notably, this approach avoids constraints on critical hyperparameters which
affect total parameters or floating-point operations. For evaluation, we
pre-process an existing large, diverse, and high-quality dataset of books that
surpasses existing academic benchmarks in quality, diversity, and document
length. On it, we compare methods based on their empirical scaling trends which
are estimated through experiments at various levels of compute. This work also
provides two baseline models: a feed-forward model derived from the GPT-2
architecture and a recurrent model in the form of a novel LSTM with ten-fold
throughput. While the GPT baseline achieves better perplexity throughout all
our levels of compute, our LSTM baseline exhibits a predictable and more
favourable scaling law. This is due to the improved throughput and the need for
fewer training tokens to achieve the same decrease in test perplexity.
Extrapolating the scaling laws leads of both models results in an intersection
at roughly 50,000 accelerator hours. We hope this work can serve as the
foundation for meaningful and reproducible language modelling research.