ChatPaper.aiChatPaper

La Languini Kitchen: Abilitare la Ricerca sul Modellamento del Linguaggio a Diverse Scale di Calcolo

The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute

September 20, 2023
Autori: Aleksandar Stanić, Dylan Ashley, Oleg Serikov, Louis Kirsch, Francesco Faccio, Jürgen Schmidhuber, Thomas Hofmann, Imanol Schlag
cs.AI

Abstract

La Languini Kitchen funge sia da collettivo di ricerca che da codebase, progettata per consentire ai ricercatori con risorse computazionali limitate di contribuire in modo significativo al campo della modellazione del linguaggio. Introduciamo un protocollo sperimentale che consente il confronto dei modelli basato su un equivalente utilizzo di risorse computazionali, misurato in ore di acceleratore. Il numero di token su cui un modello viene addestrato è definito dalla sua velocità di elaborazione e dalla classe di risorse computazionali scelta. È importante notare che questo approccio evita vincoli sui parametri ipercritici che influenzano il numero totale di parametri o le operazioni in virgola mobile. Per la valutazione, pre-elaboriamo un ampio, diversificato e di alta qualità dataset esistente di libri che supera i benchmark accademici esistenti in termini di qualità, diversità e lunghezza dei documenti. Su di esso, confrontiamo i metodi basandoci sulle loro tendenze di scalabilità empirica, stimate attraverso esperimenti a vari livelli di risorse computazionali. Questo lavoro fornisce anche due modelli di riferimento: un modello feed-forward derivato dall'architettura GPT-2 e un modello ricorrente sotto forma di un nuovo LSTM con una velocità di elaborazione dieci volte superiore. Mentre il modello GPT ottiene una migliore perplessità in tutti i nostri livelli di risorse computazionali, il nostro modello LSTM mostra una legge di scalabilità prevedibile e più favorevole. Ciò è dovuto alla maggiore velocità di elaborazione e alla necessità di un minor numero di token di addestramento per ottenere la stessa riduzione della perplessità sul test. Estrapolando le leggi di scalabilità di entrambi i modelli si ottiene un'intersezione a circa 50.000 ore di acceleratore. Speriamo che questo lavoro possa servire come base per una ricerca significativa e riproducibile nella modellazione del linguaggio.
English
The Languini Kitchen serves as both a research collective and codebase designed to empower researchers with limited computational resources to contribute meaningfully to the field of language modelling. We introduce an experimental protocol that enables model comparisons based on equivalent compute, measured in accelerator hours. The number of tokens on which a model is trained is defined by the model's throughput and the chosen compute class. Notably, this approach avoids constraints on critical hyperparameters which affect total parameters or floating-point operations. For evaluation, we pre-process an existing large, diverse, and high-quality dataset of books that surpasses existing academic benchmarks in quality, diversity, and document length. On it, we compare methods based on their empirical scaling trends which are estimated through experiments at various levels of compute. This work also provides two baseline models: a feed-forward model derived from the GPT-2 architecture and a recurrent model in the form of a novel LSTM with ten-fold throughput. While the GPT baseline achieves better perplexity throughout all our levels of compute, our LSTM baseline exhibits a predictable and more favourable scaling law. This is due to the improved throughput and the need for fewer training tokens to achieve the same decrease in test perplexity. Extrapolating the scaling laws leads of both models results in an intersection at roughly 50,000 accelerator hours. We hope this work can serve as the foundation for meaningful and reproducible language modelling research.
PDF51February 7, 2026