SlimPajama-DC : Comprendre les combinaisons de données pour l'entraînement des modèles de langage de grande taille
SlimPajama-DC: Understanding Data Combinations for LLM Training
September 19, 2023
Auteurs: Zhiqiang Shen, Tianhua Tao, Liqun Ma, Willie Neiswanger, Joel Hestness, Natalia Vassilieva, Daria Soboleva, Eric Xing
cs.AI
Résumé
Cet article vise à comprendre les impacts de diverses combinaisons de données (par exemple, texte web, Wikipédia, GitHub, livres) sur l'entraînement de grands modèles de langage en utilisant SlimPajama. SlimPajama est un ensemble de données multi-sources rigoureusement dédupliqué, qui a été affiné et encore dédupliqué pour atteindre 627 milliards de tokens à partir du vaste ensemble de données RedPajama de 1,2 trillion de tokens, contribué par Together. Nous avons nommé notre recherche SlimPajama-DC, une analyse empirique conçue pour révéler les caractéristiques fondamentales et les meilleures pratiques associées à l'utilisation de SlimPajama dans l'entraînement de grands modèles de langage. Au cours de notre recherche avec SlimPajama, deux observations cruciales ont émergé : (1) Déduplication globale vs. déduplication locale. Nous analysons et discutons comment les déduplications globale (à travers différentes sources de données) et locale (au sein d'une seule source de données) affectent les performances des modèles entraînés. (2) Proportions d'ensembles de données multi-sources de haute qualité/hautement dédupliqués dans la combinaison. Pour étudier cela, nous construisons six configurations de l'ensemble de données SlimPajama et entraînons chacune d'elles en utilisant le modèle Cerebras-GPT de 1,3 milliard de paramètres avec Alibi et SwiGLU. Notre meilleure configuration surpasse de manière significative le modèle de 1,3 milliard de paramètres entraîné sur RedPajama en utilisant le même nombre de tokens d'entraînement. Tous nos modèles de 1,3 milliard de paramètres sont entraînés sur le cluster Cerebras 16x CS-2 avec un total de 80 PFLOP/s en précision mixte bf16. Nous étendons également nos découvertes (telles que l'augmentation de la diversité des données est cruciale après la déduplication globale) sur un modèle de 7 milliards de paramètres avec un entraînement à grand lot. Nos modèles et les ensembles de données SlimPajama-DC séparés sont disponibles à l'adresse : https://huggingface.co/MBZUAI-LLM et https://huggingface.co/datasets/cerebras/SlimPajama-627B.
English
This paper aims to understand the impacts of various data combinations (e.g.,
web text, wikipedia, github, books) on the training of large language models
using SlimPajama. SlimPajama is a rigorously deduplicated, multi-source
dataset, which has been refined and further deduplicated to 627B tokens from
the extensive 1.2T tokens RedPajama dataset contributed by Together. We've
termed our research as SlimPajama-DC, an empirical analysis designed to uncover
fundamental characteristics and best practices associated with employing
SlimPajama in the training of large language models. During our research with
SlimPajama, two pivotal observations emerged: (1) Global deduplication vs.
local deduplication. We analyze and discuss how global (across different
sources of datasets) and local (within the single source of dataset)
deduplications affect the performance of trained models. (2) Proportions of
high-quality/highly-deduplicated multi-source datasets in the combination. To
study this, we construct six configurations of SlimPajama dataset and train
individual ones using 1.3B Cerebras-GPT model with Alibi and SwiGLU. Our best
configuration outperforms the 1.3B model trained on RedPajama using the same
number of training tokens by a significant margin. All our 1.3B models are
trained on Cerebras 16times CS-2 cluster with a total of 80 PFLOP/s in bf16
mixed precision. We further extend our discoveries (such as increasing data
diversity is crucial after global deduplication) on a 7B model with large
batch-size training. Our models and the separate SlimPajama-DC datasets are
available at: https://huggingface.co/MBZUAI-LLM and
https://huggingface.co/datasets/cerebras/SlimPajama-627B.