ChatPaper.aiChatPaper

La Languini Kitchen : Faciliter la recherche en modélisation du langage à différentes échelles de calcul

The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute

September 20, 2023
Auteurs: Aleksandar Stanić, Dylan Ashley, Oleg Serikov, Louis Kirsch, Francesco Faccio, Jürgen Schmidhuber, Thomas Hofmann, Imanol Schlag
cs.AI

Résumé

La Languini Kitchen fonctionne à la fois comme un collectif de recherche et une base de code, conçue pour permettre aux chercheurs disposant de ressources computationnelles limitées de contribuer de manière significative au domaine de la modélisation du langage. Nous introduisons un protocole expérimental qui permet de comparer les modèles sur la base d'une quantité équivalente de calcul, mesurée en heures d'accélérateur. Le nombre de tokens sur lesquels un modèle est entraîné est déterminé par le débit du modèle et la classe de calcul choisie. Notamment, cette approche évite les contraintes sur les hyperparamètres critiques qui affectent le nombre total de paramètres ou les opérations en virgule flottante. Pour l'évaluation, nous prétraitons un ensemble de données existant, vaste, diversifié et de haute qualité, composé de livres, qui surpasse les benchmarks académiques actuels en termes de qualité, diversité et longueur des documents. Sur cet ensemble, nous comparons les méthodes en fonction de leurs tendances d'échelle empiriques, estimées à travers des expériences à différents niveaux de calcul. Ce travail propose également deux modèles de référence : un modèle feed-forward dérivé de l'architecture GPT-2 et un modèle récurrent sous la forme d'un nouveau LSTM avec un débit dix fois supérieur. Bien que le modèle de référence GPT obtienne une meilleure perplexité à tous nos niveaux de calcul, notre modèle de référence LSTM présente une loi d'échelle prévisible et plus favorable. Cela est dû à l'amélioration du débit et à la nécessité de moins de tokens d'entraînement pour atteindre la même diminution de la perplexité de test. L'extrapolation des lois d'échelle des deux modèles aboutit à une intersection à environ 50 000 heures d'accélérateur. Nous espérons que ce travail pourra servir de fondement à une recherche en modélisation du langage significative et reproductible.
English
The Languini Kitchen serves as both a research collective and codebase designed to empower researchers with limited computational resources to contribute meaningfully to the field of language modelling. We introduce an experimental protocol that enables model comparisons based on equivalent compute, measured in accelerator hours. The number of tokens on which a model is trained is defined by the model's throughput and the chosen compute class. Notably, this approach avoids constraints on critical hyperparameters which affect total parameters or floating-point operations. For evaluation, we pre-process an existing large, diverse, and high-quality dataset of books that surpasses existing academic benchmarks in quality, diversity, and document length. On it, we compare methods based on their empirical scaling trends which are estimated through experiments at various levels of compute. This work also provides two baseline models: a feed-forward model derived from the GPT-2 architecture and a recurrent model in the form of a novel LSTM with ten-fold throughput. While the GPT baseline achieves better perplexity throughout all our levels of compute, our LSTM baseline exhibits a predictable and more favourable scaling law. This is due to the improved throughput and the need for fewer training tokens to achieve the same decrease in test perplexity. Extrapolating the scaling laws leads of both models results in an intersection at roughly 50,000 accelerator hours. We hope this work can serve as the foundation for meaningful and reproducible language modelling research.
PDF51December 15, 2024