SlimPajama-DC: Comprendere le Combinazioni di Dati per l'Addestramento di Modelli Linguistici di Grande Dimensione
SlimPajama-DC: Understanding Data Combinations for LLM Training
September 19, 2023
Autori: Zhiqiang Shen, Tianhua Tao, Liqun Ma, Willie Neiswanger, Joel Hestness, Natalia Vassilieva, Daria Soboleva, Eric Xing
cs.AI
Abstract
Questo articolo si propone di comprendere gli impatti di varie combinazioni di dati (ad esempio, testo web, Wikipedia, GitHub, libri) sull'addestramento di modelli linguistici di grandi dimensioni utilizzando SlimPajama. SlimPajama è un dataset multi-sorgente rigorosamente deduplicato, che è stato raffinato e ulteriormente deduplicato a 627 miliardi di token partendo dall'esteso dataset RedPajama di 1,2 trilioni di token contribuito da Together. Abbiamo definito la nostra ricerca come SlimPajama-DC, un'analisi empirica progettata per scoprire le caratteristiche fondamentali e le migliori pratiche associate all'uso di SlimPajama nell'addestramento di modelli linguistici di grandi dimensioni. Durante la nostra ricerca con SlimPajama, sono emerse due osservazioni fondamentali: (1) Deduplicazione globale vs. deduplicazione locale. Analizziamo e discutiamo come le deduplicazioni globali (attraverso diverse sorgenti di dataset) e locali (all'interno di una singola sorgente di dataset) influenzino le prestazioni dei modelli addestrati. (2) Proporzioni di dataset multi-sorgente di alta qualità/altamente deduplicati nella combinazione. Per studiare questo aspetto, abbiamo costruito sei configurazioni del dataset SlimPajama e abbiamo addestrato ciascuna di esse utilizzando il modello Cerebras-GPT da 1,3 miliardi di parametri con Alibi e SwiGLU. La nostra migliore configurazione supera di un margine significativo il modello da 1,3 miliardi di parametri addestrato su RedPajama utilizzando lo stesso numero di token di addestramento. Tutti i nostri modelli da 1,3 miliardi di parametri sono stati addestrati sul cluster Cerebras 16x CS-2 con un totale di 80 PFLOP/s in precisione mista bf16. Estendiamo ulteriormente le nostre scoperte (come l'importanza di aumentare la diversità dei dati dopo la deduplicazione globale) su un modello da 7 miliardi di parametri con addestramento a batch di grandi dimensioni. I nostri modelli e i dataset separati SlimPajama-DC sono disponibili su: https://huggingface.co/MBZUAI-LLM e https://huggingface.co/datasets/cerebras/SlimPajama-627B.
English
This paper aims to understand the impacts of various data combinations (e.g.,
web text, wikipedia, github, books) on the training of large language models
using SlimPajama. SlimPajama is a rigorously deduplicated, multi-source
dataset, which has been refined and further deduplicated to 627B tokens from
the extensive 1.2T tokens RedPajama dataset contributed by Together. We've
termed our research as SlimPajama-DC, an empirical analysis designed to uncover
fundamental characteristics and best practices associated with employing
SlimPajama in the training of large language models. During our research with
SlimPajama, two pivotal observations emerged: (1) Global deduplication vs.
local deduplication. We analyze and discuss how global (across different
sources of datasets) and local (within the single source of dataset)
deduplications affect the performance of trained models. (2) Proportions of
high-quality/highly-deduplicated multi-source datasets in the combination. To
study this, we construct six configurations of SlimPajama dataset and train
individual ones using 1.3B Cerebras-GPT model with Alibi and SwiGLU. Our best
configuration outperforms the 1.3B model trained on RedPajama using the same
number of training tokens by a significant margin. All our 1.3B models are
trained on Cerebras 16times CS-2 cluster with a total of 80 PFLOP/s in bf16
mixed precision. We further extend our discoveries (such as increasing data
diversity is crucial after global deduplication) on a 7B model with large
batch-size training. Our models and the separate SlimPajama-DC datasets are
available at: https://huggingface.co/MBZUAI-LLM and
https://huggingface.co/datasets/cerebras/SlimPajama-627B.