SlimPajama-DC: Comprensión de las combinaciones de datos para el entrenamiento de modelos de lenguaje grandes (LLM)
SlimPajama-DC: Understanding Data Combinations for LLM Training
September 19, 2023
Autores: Zhiqiang Shen, Tianhua Tao, Liqun Ma, Willie Neiswanger, Joel Hestness, Natalia Vassilieva, Daria Soboleva, Eric Xing
cs.AI
Resumen
Este artículo tiene como objetivo comprender los impactos de diversas combinaciones de datos (por ejemplo, texto web, Wikipedia, GitHub, libros) en el entrenamiento de modelos de lenguaje grandes utilizando SlimPajama. SlimPajama es un conjunto de datos multi-fuente rigurosamente deduplicado, que ha sido refinado y deduplicado aún más hasta alcanzar 627B tokens a partir del extenso conjunto de datos RedPajama de 1.2T tokens, contribuido por Together. Hemos denominado nuestra investigación como SlimPajama-DC, un análisis empírico diseñado para descubrir características fundamentales y mejores prácticas asociadas con el uso de SlimPajama en el entrenamiento de modelos de lenguaje grandes. Durante nuestra investigación con SlimPajama, surgieron dos observaciones clave: (1) Deduplicación global frente a deduplicación local. Analizamos y discutimos cómo las deduplicaciones globales (a través de diferentes fuentes de conjuntos de datos) y locales (dentro de una sola fuente de conjunto de datos) afectan el rendimiento de los modelos entrenados. (2) Proporciones de conjuntos de datos multi-fuente de alta calidad/altamente deduplicados en la combinación. Para estudiar esto, construimos seis configuraciones del conjunto de datos SlimPajama y entrenamos cada una utilizando el modelo Cerebras-GPT de 1.3B con Alibi y SwiGLU. Nuestra mejor configuración supera significativamente al modelo de 1.3B entrenado en RedPajama utilizando el mismo número de tokens de entrenamiento. Todos nuestros modelos de 1.3B se entrenaron en el clúster Cerebras 16x CS-2 con un total de 80 PFLOP/s en precisión mixta bf16. Extendemos nuestros descubrimientos (como que aumentar la diversidad de datos es crucial después de la deduplicación global) en un modelo de 7B con entrenamiento de gran tamaño de lote. Nuestros modelos y los conjuntos de datos separados de SlimPajama-DC están disponibles en: https://huggingface.co/MBZUAI-LLM y https://huggingface.co/datasets/cerebras/SlimPajama-627B.
English
This paper aims to understand the impacts of various data combinations (e.g.,
web text, wikipedia, github, books) on the training of large language models
using SlimPajama. SlimPajama is a rigorously deduplicated, multi-source
dataset, which has been refined and further deduplicated to 627B tokens from
the extensive 1.2T tokens RedPajama dataset contributed by Together. We've
termed our research as SlimPajama-DC, an empirical analysis designed to uncover
fundamental characteristics and best practices associated with employing
SlimPajama in the training of large language models. During our research with
SlimPajama, two pivotal observations emerged: (1) Global deduplication vs.
local deduplication. We analyze and discuss how global (across different
sources of datasets) and local (within the single source of dataset)
deduplications affect the performance of trained models. (2) Proportions of
high-quality/highly-deduplicated multi-source datasets in the combination. To
study this, we construct six configurations of SlimPajama dataset and train
individual ones using 1.3B Cerebras-GPT model with Alibi and SwiGLU. Our best
configuration outperforms the 1.3B model trained on RedPajama using the same
number of training tokens by a significant margin. All our 1.3B models are
trained on Cerebras 16times CS-2 cluster with a total of 80 PFLOP/s in bf16
mixed precision. We further extend our discoveries (such as increasing data
diversity is crucial after global deduplication) on a 7B model with large
batch-size training. Our models and the separate SlimPajama-DC datasets are
available at: https://huggingface.co/MBZUAI-LLM and
https://huggingface.co/datasets/cerebras/SlimPajama-627B.