SlimPajama-DC: Исследование комбинаций данных для обучения языковых моделей большого размера
SlimPajama-DC: Understanding Data Combinations for LLM Training
September 19, 2023
Авторы: Zhiqiang Shen, Tianhua Tao, Liqun Ma, Willie Neiswanger, Joel Hestness, Natalia Vassilieva, Daria Soboleva, Eric Xing
cs.AI
Аннотация
Данная работа направлена на изучение влияния различных комбинаций данных (например, веб-тексты, Wikipedia, GitHub, книги) на обучение крупных языковых моделей с использованием набора данных SlimPajama. SlimPajama представляет собой тщательно дедуплицированный мультиисточниковый набор данных, который был уточнен и дополнительно дедуплицирован до 627 миллиардов токенов из обширного набора данных RedPajama объемом 1,2 триллиона токенов, предоставленного компанией Together. Мы назвали наше исследование SlimPajama-DC — это эмпирический анализ, предназначенный для выявления фундаментальных характеристик и лучших практик, связанных с использованием SlimPajama при обучении крупных языковых моделей. В ходе исследования с использованием SlimPajama были сделаны два ключевых наблюдения: (1) Глобальная дедупликация против локальной дедупликации. Мы анализируем и обсуждаем, как глобальная (между различными источниками данных) и локальная (внутри одного источника данных) дедупликация влияют на производительность обученных моделей. (2) Пропорции высококачественных/сильно дедуплицированных мультиисточниковых наборов данных в комбинации. Для изучения этого мы создали шесть конфигураций набора данных SlimPajama и обучили каждую из них с использованием модели Cerebras-GPT объемом 1,3 миллиарда параметров с применением Alibi и SwiGLU. Наша лучшая конфигурация значительно превосходит модель объемом 1,3 миллиарда параметров, обученную на RedPajama, при том же количестве токенов для обучения. Все наши модели объемом 1,3 миллиарда параметров были обучены на кластере Cerebras 16x CS-2 с общей производительностью 80 PFLOP/s в смешанной точности bf16. Мы также расширили наши открытия (например, увеличение разнообразия данных является критически важным после глобальной дедупликации) на модель объемом 7 миллиардов параметров с обучением на больших размерах батчей. Наши модели и отдельные наборы данных SlimPajama-DC доступны по адресам: https://huggingface.co/MBZUAI-LLM и https://huggingface.co/datasets/cerebras/SlimPajama-627B.
English
This paper aims to understand the impacts of various data combinations (e.g.,
web text, wikipedia, github, books) on the training of large language models
using SlimPajama. SlimPajama is a rigorously deduplicated, multi-source
dataset, which has been refined and further deduplicated to 627B tokens from
the extensive 1.2T tokens RedPajama dataset contributed by Together. We've
termed our research as SlimPajama-DC, an empirical analysis designed to uncover
fundamental characteristics and best practices associated with employing
SlimPajama in the training of large language models. During our research with
SlimPajama, two pivotal observations emerged: (1) Global deduplication vs.
local deduplication. We analyze and discuss how global (across different
sources of datasets) and local (within the single source of dataset)
deduplications affect the performance of trained models. (2) Proportions of
high-quality/highly-deduplicated multi-source datasets in the combination. To
study this, we construct six configurations of SlimPajama dataset and train
individual ones using 1.3B Cerebras-GPT model with Alibi and SwiGLU. Our best
configuration outperforms the 1.3B model trained on RedPajama using the same
number of training tokens by a significant margin. All our 1.3B models are
trained on Cerebras 16times CS-2 cluster with a total of 80 PFLOP/s in bf16
mixed precision. We further extend our discoveries (such as increasing data
diversity is crucial after global deduplication) on a 7B model with large
batch-size training. Our models and the separate SlimPajama-DC datasets are
available at: https://huggingface.co/MBZUAI-LLM and
https://huggingface.co/datasets/cerebras/SlimPajama-627B.