Languini Kitchen: 다양한 컴퓨팅 규모에서의 언어 모델링 연구 지원
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute
September 20, 2023
저자: Aleksandar Stanić, Dylan Ashley, Oleg Serikov, Louis Kirsch, Francesco Faccio, Jürgen Schmidhuber, Thomas Hofmann, Imanol Schlag
cs.AI
초록
Languini Kitchen은 연구 공동체이자 코드베이스로서, 제한된 컴퓨팅 자원을 가진 연구자들이 언어 모델링 분야에 의미 있게 기여할 수 있도록 지원합니다. 우리는 가속기 시간으로 측정된 동등한 컴퓨팅 자원을 기반으로 모델 비교를 가능하게 하는 실험 프로토콜을 소개합니다. 모델이 학습하는 토큰의 수는 모델의 처리량과 선택된 컴퓨팅 클래스에 의해 정의됩니다. 특히, 이 접근 방식은 총 매개변수 수나 부동소수점 연산에 영향을 미치는 중요한 하이퍼파라미터에 대한 제약을 피합니다. 평가를 위해, 우리는 기존의 학계 벤치마크를 질, 다양성, 문서 길이 측면에서 능가하는 크고 다양하며 고품질의 책 데이터셋을 전처리합니다. 이를 통해 다양한 컴퓨팅 수준에서 실험을 통해 추정된 경험적 스케일링 경향을 기반으로 방법들을 비교합니다. 이 연구는 또한 두 가지 베이스라인 모델을 제공합니다: GPT-2 아키텍처에서 파생된 피드포워드 모델과 10배 처리량을 가진 새로운 형태의 LSTM 순환 모델입니다. GPT 베이스라인이 모든 컴퓨팅 수준에서 더 나은 perplexity를 달성하는 반면, 우리의 LSTM 베이스라인은 예측 가능하고 더 유리한 스케일링 법칙을 보여줍니다. 이는 향상된 처리량과 동일한 테스트 perplexity 감소를 달성하기 위해 더 적은 학습 토큰이 필요하기 때문입니다. 두 모델의 스케일링 법칙을 외삽하면 약 50,000 가속기 시간에서 교차점이 발생합니다. 우리는 이 연구가 의미 있고 재현 가능한 언어 모델링 연구의 기초가 되기를 바랍니다.
English
The Languini Kitchen serves as both a research collective and codebase
designed to empower researchers with limited computational resources to
contribute meaningfully to the field of language modelling. We introduce an
experimental protocol that enables model comparisons based on equivalent
compute, measured in accelerator hours. The number of tokens on which a model
is trained is defined by the model's throughput and the chosen compute class.
Notably, this approach avoids constraints on critical hyperparameters which
affect total parameters or floating-point operations. For evaluation, we
pre-process an existing large, diverse, and high-quality dataset of books that
surpasses existing academic benchmarks in quality, diversity, and document
length. On it, we compare methods based on their empirical scaling trends which
are estimated through experiments at various levels of compute. This work also
provides two baseline models: a feed-forward model derived from the GPT-2
architecture and a recurrent model in the form of a novel LSTM with ten-fold
throughput. While the GPT baseline achieves better perplexity throughout all
our levels of compute, our LSTM baseline exhibits a predictable and more
favourable scaling law. This is due to the improved throughput and the need for
fewer training tokens to achieve the same decrease in test perplexity.
Extrapolating the scaling laws leads of both models results in an intersection
at roughly 50,000 accelerator hours. We hope this work can serve as the
foundation for meaningful and reproducible language modelling research.