La Cocina Languini: Facilitando la Investigación en Modelado de Lenguaje a Diferentes Escalas de Cómputo
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute
September 20, 2023
Autores: Aleksandar Stanić, Dylan Ashley, Oleg Serikov, Louis Kirsch, Francesco Faccio, Jürgen Schmidhuber, Thomas Hofmann, Imanol Schlag
cs.AI
Resumen
La Cocina Languini funciona tanto como un colectivo de investigación como una base de código diseñada para empoderar a investigadores con recursos computacionales limitados para contribuir de manera significativa al campo del modelado del lenguaje. Introducimos un protocolo experimental que permite comparaciones de modelos basadas en un cómputo equivalente, medido en horas de acelerador. El número de tokens en los que se entrena un modelo está definido por el rendimiento del modelo y la clase de cómputo elegida. Cabe destacar que este enfoque evita restricciones en hiperparámetros críticos que afectan el número total de parámetros o las operaciones de punto flotante. Para la evaluación, preprocesamos un conjunto de datos existente, grande, diverso y de alta calidad de libros que supera los puntos de referencia académicos actuales en calidad, diversidad y longitud de documentos. En él, comparamos métodos basados en sus tendencias de escalado empírico, las cuales se estiman mediante experimentos en varios niveles de cómputo. Este trabajo también proporciona dos modelos de referencia: un modelo de avance (feed-forward) derivado de la arquitectura GPT-2 y un modelo recurrente en forma de una LSTM novedosa con un rendimiento diez veces mayor. Mientras que el modelo de referencia GPT logra una mejor perplejidad en todos nuestros niveles de cómputo, nuestra LSTM de referencia exhibe una ley de escalado predecible y más favorable. Esto se debe al rendimiento mejorado y a la necesidad de menos tokens de entrenamiento para lograr la misma reducción en la perplejidad de prueba. Extrapolar las leyes de escalado de ambos modelos resulta en una intersección aproximadamente a las 50,000 horas de acelerador. Esperamos que este trabajo pueda servir como base para una investigación de modelado del lenguaje significativa y reproducible.
English
The Languini Kitchen serves as both a research collective and codebase
designed to empower researchers with limited computational resources to
contribute meaningfully to the field of language modelling. We introduce an
experimental protocol that enables model comparisons based on equivalent
compute, measured in accelerator hours. The number of tokens on which a model
is trained is defined by the model's throughput and the chosen compute class.
Notably, this approach avoids constraints on critical hyperparameters which
affect total parameters or floating-point operations. For evaluation, we
pre-process an existing large, diverse, and high-quality dataset of books that
surpasses existing academic benchmarks in quality, diversity, and document
length. On it, we compare methods based on their empirical scaling trends which
are estimated through experiments at various levels of compute. This work also
provides two baseline models: a feed-forward model derived from the GPT-2
architecture and a recurrent model in the form of a novel LSTM with ten-fold
throughput. While the GPT baseline achieves better perplexity throughout all
our levels of compute, our LSTM baseline exhibits a predictable and more
favourable scaling law. This is due to the improved throughput and the need for
fewer training tokens to achieve the same decrease in test perplexity.
Extrapolating the scaling laws leads of both models results in an intersection
at roughly 50,000 accelerator hours. We hope this work can serve as the
foundation for meaningful and reproducible language modelling research.