SlimPajama-DC: Verständnis von Datenkombinationen für das Training von großen Sprachmodellen
SlimPajama-DC: Understanding Data Combinations for LLM Training
September 19, 2023
Autoren: Zhiqiang Shen, Tianhua Tao, Liqun Ma, Willie Neiswanger, Joel Hestness, Natalia Vassilieva, Daria Soboleva, Eric Xing
cs.AI
Zusammenfassung
Diese Arbeit zielt darauf ab, die Auswirkungen verschiedener Datenkombinationen (z. B. Webtexte, Wikipedia, GitHub, Bücher) auf das Training großer Sprachmodelle unter Verwendung von SlimPajama zu verstehen. SlimPajama ist ein rigoros dedupliziertes, multi-quellenbasiertes Datenset, das aus dem umfangreichen 1,2T Token umfassenden RedPajama-Datensatz von Together verfeinert und weiter dedupliziert wurde, sodass es nun 627B Token umfasst. Wir haben unsere Forschung als SlimPajama-DC bezeichnet, eine empirische Analyse, die darauf abzielt, grundlegende Eigenschaften und Best Practices im Zusammenhang mit der Verwendung von SlimPajama für das Training großer Sprachmodelle aufzudecken. Während unserer Forschung mit SlimPajama traten zwei zentrale Beobachtungen hervor: (1) Globale Deduplizierung vs. lokale Deduplizierung. Wir analysieren und diskutieren, wie globale (über verschiedene Datenquellen hinweg) und lokale (innerhalb einer einzelnen Datenquelle) Deduplizierungen die Leistung der trainierten Modelle beeinflussen. (2) Anteile von hochwertigen/stark deduplizierten multi-quellenbasierten Datensätzen in der Kombination. Um dies zu untersuchen, konstruieren wir sechs Konfigurationen des SlimPajama-Datensatzes und trainieren jeweils eine mit dem 1,3B Cerebras-GPT-Modell unter Verwendung von Alibi und SwiGLU. Unsere beste Konfiguration übertrifft das auf RedPajama trainierte 1,3B-Modell bei gleicher Anzahl von Trainingstokens deutlich. Alle unsere 1,3B-Modelle wurden auf dem Cerebras 16x CS-2-Cluster mit insgesamt 80 PFLOP/s in bf16-Mixed-Precision trainiert. Wir erweitern unsere Erkenntnisse (z. B. dass die Erhöhung der Datenvielfalt nach globaler Deduplizierung entscheidend ist) auf ein 7B-Modell mit großem Batch-Size-Training. Unsere Modelle und die separaten SlimPajama-DC-Datensätze sind verfügbar unter: https://huggingface.co/MBZUAI-LLM und https://huggingface.co/datasets/cerebras/SlimPajama-627B.
English
This paper aims to understand the impacts of various data combinations (e.g.,
web text, wikipedia, github, books) on the training of large language models
using SlimPajama. SlimPajama is a rigorously deduplicated, multi-source
dataset, which has been refined and further deduplicated to 627B tokens from
the extensive 1.2T tokens RedPajama dataset contributed by Together. We've
termed our research as SlimPajama-DC, an empirical analysis designed to uncover
fundamental characteristics and best practices associated with employing
SlimPajama in the training of large language models. During our research with
SlimPajama, two pivotal observations emerged: (1) Global deduplication vs.
local deduplication. We analyze and discuss how global (across different
sources of datasets) and local (within the single source of dataset)
deduplications affect the performance of trained models. (2) Proportions of
high-quality/highly-deduplicated multi-source datasets in the combination. To
study this, we construct six configurations of SlimPajama dataset and train
individual ones using 1.3B Cerebras-GPT model with Alibi and SwiGLU. Our best
configuration outperforms the 1.3B model trained on RedPajama using the same
number of training tokens by a significant margin. All our 1.3B models are
trained on Cerebras 16times CS-2 cluster with a total of 80 PFLOP/s in bf16
mixed precision. We further extend our discoveries (such as increasing data
diversity is crucial after global deduplication) on a 7B model with large
batch-size training. Our models and the separate SlimPajama-DC datasets are
available at: https://huggingface.co/MBZUAI-LLM and
https://huggingface.co/datasets/cerebras/SlimPajama-627B.