ChatPaper.aiChatPaper

De Languini Kitchen: Taalmodelleringsonderzoek mogelijk maken op verschillende schalen van rekenkracht

The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute

September 20, 2023
Auteurs: Aleksandar Stanić, Dylan Ashley, Oleg Serikov, Louis Kirsch, Francesco Faccio, Jürgen Schmidhuber, Thomas Hofmann, Imanol Schlag
cs.AI

Samenvatting

De Languini Kitchen fungeert zowel als een onderzoekscollectief als een codebase die is ontworpen om onderzoekers met beperkte rekenmiddelen in staat te stellen zinvol bij te dragen aan het vakgebied van taalmodellering. We introduceren een experimenteel protocol dat modelvergelijkingen mogelijk maakt op basis van equivalente rekenkracht, gemeten in accelerator-uren. Het aantal tokens waarop een model wordt getraind, wordt bepaald door de doorvoersnelheid van het model en de gekozen rekenklasse. Opmerkelijk is dat deze aanpak beperkingen vermijdt op kritieke hyperparameters die het totale aantal parameters of zwevendekomma-bewerkingen beïnvloeden. Voor evaluatie verwerken we een bestaande grote, diverse en hoogwaardige dataset van boeken voor, die bestaande academische benchmarks overtreft in kwaliteit, diversiteit en documentlengte. Hierop vergelijken we methoden op basis van hun empirische schaalwetten, die worden geschat via experimenten op verschillende niveaus van rekenkracht. Dit werk biedt ook twee basismodellen: een feedforward-model afgeleid van de GPT-2 architectuur en een recurrent model in de vorm van een nieuwe LSTM met een tienvoudige doorvoersnelheid. Hoewel het GPT-basismodel betere perplexiteit behaalt op al onze niveaus van rekenkracht, vertoont ons LSTM-basismodel een voorspelbare en gunstigere schaalwet. Dit komt door de verbeterde doorvoersnelheid en de behoefte aan minder trainings-tokens om dezelfde daling in testperplexiteit te bereiken. Extrapolatie van de schaalwetten van beide modellen resulteert in een snijpunt bij ongeveer 50.000 accelerator-uren. We hopen dat dit werk kan dienen als basis voor zinvol en reproduceerbaar onderzoek naar taalmodellering.
English
The Languini Kitchen serves as both a research collective and codebase designed to empower researchers with limited computational resources to contribute meaningfully to the field of language modelling. We introduce an experimental protocol that enables model comparisons based on equivalent compute, measured in accelerator hours. The number of tokens on which a model is trained is defined by the model's throughput and the chosen compute class. Notably, this approach avoids constraints on critical hyperparameters which affect total parameters or floating-point operations. For evaluation, we pre-process an existing large, diverse, and high-quality dataset of books that surpasses existing academic benchmarks in quality, diversity, and document length. On it, we compare methods based on their empirical scaling trends which are estimated through experiments at various levels of compute. This work also provides two baseline models: a feed-forward model derived from the GPT-2 architecture and a recurrent model in the form of a novel LSTM with ten-fold throughput. While the GPT baseline achieves better perplexity throughout all our levels of compute, our LSTM baseline exhibits a predictable and more favourable scaling law. This is due to the improved throughput and the need for fewer training tokens to achieve the same decrease in test perplexity. Extrapolating the scaling laws leads of both models results in an intersection at roughly 50,000 accelerator hours. We hope this work can serve as the foundation for meaningful and reproducible language modelling research.
PDF51February 7, 2026