ChatPaper.aiChatPaper

SlimPajama-DC: Inzicht in Data-combinaties voor LLM-training

SlimPajama-DC: Understanding Data Combinations for LLM Training

September 19, 2023
Auteurs: Zhiqiang Shen, Tianhua Tao, Liqun Ma, Willie Neiswanger, Joel Hestness, Natalia Vassilieva, Daria Soboleva, Eric Xing
cs.AI

Samenvatting

Dit artikel beoogt de impact te begrijpen van verschillende datacombinaties (bijv. webtekst, Wikipedia, GitHub, boeken) op het trainen van grote taalmodel(len) met behulp van SlimPajama. SlimPajama is een rigoureus gededupliceerde, multi-source dataset, die is verfijnd en verder gededupliceerd tot 627B tokens uit de uitgebreide 1.2T tokens RedPajama dataset, bijgedragen door Together. We hebben ons onderzoek aangeduid als SlimPajama-DC, een empirische analyse ontworpen om fundamentele kenmerken en best practices te onthullen die gepaard gaan met het gebruik van SlimPajama bij het trainen van grote taalmodel(len). Tijdens ons onderzoek met SlimPajama kwamen twee cruciale observaties naar voren: (1) Globale deduplicatie versus lokale deduplicatie. We analyseren en bespreken hoe globale (over verschillende bronnen van datasets) en lokale (binnen een enkele bron van een dataset) deduplicaties de prestaties van getrainde modellen beïnvloeden. (2) Verhoudingen van hoogwaardige/sterk gededupliceerde multi-source datasets in de combinatie. Om dit te bestuderen, construeren we zes configuraties van de SlimPajama dataset en trainen we individuele configuraties met behulp van het 1.3B Cerebras-GPT model met Alibi en SwiGLU. Onze beste configuratie overtreft het 1.3B model getraind op RedPajama met hetzelfde aantal trainings-tokens aanzienlijk. Al onze 1.3B modellen zijn getraind op het Cerebras 16x CS-2 cluster met een totaal van 80 PFLOP/s in bf16 gemengde precisie. We breiden onze ontdekkingen (zoals het vergroten van datadiversiteit is cruciaal na globale deduplicatie) verder uit op een 7B model met grote batch-grootte training. Onze modellen en de afzonderlijke SlimPajama-DC datasets zijn beschikbaar op: https://huggingface.co/MBZUAI-LLM en https://huggingface.co/datasets/cerebras/SlimPajama-627B.
English
This paper aims to understand the impacts of various data combinations (e.g., web text, wikipedia, github, books) on the training of large language models using SlimPajama. SlimPajama is a rigorously deduplicated, multi-source dataset, which has been refined and further deduplicated to 627B tokens from the extensive 1.2T tokens RedPajama dataset contributed by Together. We've termed our research as SlimPajama-DC, an empirical analysis designed to uncover fundamental characteristics and best practices associated with employing SlimPajama in the training of large language models. During our research with SlimPajama, two pivotal observations emerged: (1) Global deduplication vs. local deduplication. We analyze and discuss how global (across different sources of datasets) and local (within the single source of dataset) deduplications affect the performance of trained models. (2) Proportions of high-quality/highly-deduplicated multi-source datasets in the combination. To study this, we construct six configurations of SlimPajama dataset and train individual ones using 1.3B Cerebras-GPT model with Alibi and SwiGLU. Our best configuration outperforms the 1.3B model trained on RedPajama using the same number of training tokens by a significant margin. All our 1.3B models are trained on Cerebras 16times CS-2 cluster with a total of 80 PFLOP/s in bf16 mixed precision. We further extend our discoveries (such as increasing data diversity is crucial after global deduplication) on a 7B model with large batch-size training. Our models and the separate SlimPajama-DC datasets are available at: https://huggingface.co/MBZUAI-LLM and https://huggingface.co/datasets/cerebras/SlimPajama-627B.
PDF111February 8, 2026