ChatPaper.aiChatPaper

SlimPajama-DC: Compreendendo Combinações de Dados para o Treinamento de Modelos de Linguagem de Grande Escala

SlimPajama-DC: Understanding Data Combinations for LLM Training

September 19, 2023
Autores: Zhiqiang Shen, Tianhua Tao, Liqun Ma, Willie Neiswanger, Joel Hestness, Natalia Vassilieva, Daria Soboleva, Eric Xing
cs.AI

Resumo

Este artigo tem como objetivo compreender os impactos de várias combinações de dados (por exemplo, texto da web, Wikipedia, GitHub, livros) no treinamento de modelos de linguagem de grande escala utilizando o SlimPajama. O SlimPajama é um conjunto de dados multi-fonte rigorosamente deduplicado, que foi refinado e ainda mais deduplicado para 627 bilhões de tokens a partir do extenso conjunto de dados RedPajama de 1,2 trilhão de tokens, contribuído pela Together. Denominamos nossa pesquisa como SlimPajama-DC, uma análise empírica projetada para revelar características fundamentais e melhores práticas associadas ao uso do SlimPajama no treinamento de modelos de linguagem de grande escala. Durante nossa pesquisa com o SlimPajama, duas observações cruciais surgiram: (1) Deduplicação global vs. deduplicação local. Analisamos e discutimos como as deduplicações global (entre diferentes fontes de conjuntos de dados) e local (dentro de uma única fonte de conjunto de dados) afetam o desempenho dos modelos treinados. (2) Proporções de conjuntos de dados multi-fonte de alta qualidade/altamente deduplicados na combinação. Para estudar isso, construímos seis configurações do conjunto de dados SlimPajama e treinamos cada uma delas utilizando o modelo Cerebras-GPT de 1,3 bilhão de parâmetros com Alibi e SwiGLU. Nossa melhor configuração supera significativamente o modelo de 1,3 bilhão treinado no RedPajama utilizando o mesmo número de tokens de treinamento. Todos os nossos modelos de 1,3 bilhão foram treinados no cluster Cerebras 16x CS-2 com um total de 80 PFLOP/s em precisão mista bf16. Estendemos ainda nossas descobertas (como o aumento da diversidade de dados ser crucial após a deduplicação global) em um modelo de 7 bilhões com treinamento de grande tamanho de lote. Nossos modelos e os conjuntos de dados separados do SlimPajama-DC estão disponíveis em: https://huggingface.co/MBZUAI-LLM e https://huggingface.co/datasets/cerebras/SlimPajama-627B.
English
This paper aims to understand the impacts of various data combinations (e.g., web text, wikipedia, github, books) on the training of large language models using SlimPajama. SlimPajama is a rigorously deduplicated, multi-source dataset, which has been refined and further deduplicated to 627B tokens from the extensive 1.2T tokens RedPajama dataset contributed by Together. We've termed our research as SlimPajama-DC, an empirical analysis designed to uncover fundamental characteristics and best practices associated with employing SlimPajama in the training of large language models. During our research with SlimPajama, two pivotal observations emerged: (1) Global deduplication vs. local deduplication. We analyze and discuss how global (across different sources of datasets) and local (within the single source of dataset) deduplications affect the performance of trained models. (2) Proportions of high-quality/highly-deduplicated multi-source datasets in the combination. To study this, we construct six configurations of SlimPajama dataset and train individual ones using 1.3B Cerebras-GPT model with Alibi and SwiGLU. Our best configuration outperforms the 1.3B model trained on RedPajama using the same number of training tokens by a significant margin. All our 1.3B models are trained on Cerebras 16times CS-2 cluster with a total of 80 PFLOP/s in bf16 mixed precision. We further extend our discoveries (such as increasing data diversity is crucial after global deduplication) on a 7B model with large batch-size training. Our models and the separate SlimPajama-DC datasets are available at: https://huggingface.co/MBZUAI-LLM and https://huggingface.co/datasets/cerebras/SlimPajama-627B.
PDF111February 8, 2026