ChatPaper.aiChatPaper

Die Languini-Küche: Ermöglichung der Sprachmodellforschung auf verschiedenen Skalen der Rechenleistung

The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute

September 20, 2023
Autoren: Aleksandar Stanić, Dylan Ashley, Oleg Serikov, Louis Kirsch, Francesco Faccio, Jürgen Schmidhuber, Thomas Hofmann, Imanol Schlag
cs.AI

Zusammenfassung

Die Languini Kitchen fungiert sowohl als Forschungsgemeinschaft als auch als Codebasis, die darauf abzielt, Forscher mit begrenzten Rechenressourcen zu befähigen, einen bedeutungsvollen Beitrag im Bereich der Sprachmodellierung zu leisten. Wir stellen ein experimentelles Protokoll vor, das Modellvergleiche auf Basis äquivalenter Rechenleistung, gemessen in Beschleunigerstunden, ermöglicht. Die Anzahl der Token, auf denen ein Modell trainiert wird, wird durch den Durchsatz des Modells und die gewählte Rechenklasse definiert. Bemerkenswerterweise vermeidet dieser Ansatz Einschränkungen bei kritischen Hyperparametern, die die Gesamtanzahl der Parameter oder die Anzahl der Gleitkommaoperationen beeinflussen. Für die Evaluation verarbeiten wir einen bestehenden großen, vielfältigen und qualitativ hochwertigen Datensatz von Büchern vor, der bestehende akademische Benchmarks in Bezug auf Qualität, Vielfalt und Dokumentlänge übertrifft. Darauf vergleichen wir Methoden basierend auf ihren empirischen Skalierungstrends, die durch Experimente auf verschiedenen Rechenleistungsniveaus geschätzt werden. Diese Arbeit bietet auch zwei Basismodelle: ein Feed-Forward-Modell, das auf der GPT-2-Architektur basiert, und ein rekurrentes Modell in Form eines neuartigen LSTM mit zehnfachem Durchsatz. Während das GPT-Basismodell in allen unseren Rechenleistungsniveaus eine bessere Perplexität erreicht, zeigt unser LSTM-Basismodell ein vorhersehbares und günstigeres Skalierungsgesetz. Dies ist auf den verbesserten Durchsatz und den geringeren Bedarf an Trainings-Token zurückzuführen, um die gleiche Verringerung der Test-Perplexität zu erreichen. Die Extrapolation der Skalierungsgesetze beider Modelle führt zu einer Überschneidung bei etwa 50.000 Beschleunigerstunden. Wir hoffen, dass diese Arbeit als Grundlage für bedeutungsvolle und reproduzierbare Forschung im Bereich der Sprachmodellierung dienen kann.
English
The Languini Kitchen serves as both a research collective and codebase designed to empower researchers with limited computational resources to contribute meaningfully to the field of language modelling. We introduce an experimental protocol that enables model comparisons based on equivalent compute, measured in accelerator hours. The number of tokens on which a model is trained is defined by the model's throughput and the chosen compute class. Notably, this approach avoids constraints on critical hyperparameters which affect total parameters or floating-point operations. For evaluation, we pre-process an existing large, diverse, and high-quality dataset of books that surpasses existing academic benchmarks in quality, diversity, and document length. On it, we compare methods based on their empirical scaling trends which are estimated through experiments at various levels of compute. This work also provides two baseline models: a feed-forward model derived from the GPT-2 architecture and a recurrent model in the form of a novel LSTM with ten-fold throughput. While the GPT baseline achieves better perplexity throughout all our levels of compute, our LSTM baseline exhibits a predictable and more favourable scaling law. This is due to the improved throughput and the need for fewer training tokens to achieve the same decrease in test perplexity. Extrapolating the scaling laws leads of both models results in an intersection at roughly 50,000 accelerator hours. We hope this work can serve as the foundation for meaningful and reproducible language modelling research.
PDF51December 15, 2024