RedPajama: открытый набор данных для обучения больших языковых моделей
RedPajama: an Open Dataset for Training Large Language Models
November 19, 2024
Авторы: Maurice Weber, Daniel Fu, Quentin Anthony, Yonatan Oren, Shane Adams, Anton Alexandrov, Xiaozhong Lyu, Huu Nguyen, Xiaozhe Yao, Virginia Adams, Ben Athiwaratkun, Rahul Chalamala, Kezhen Chen, Max Ryabinin, Tri Dao, Percy Liang, Christopher Ré, Irina Rish, Ce Zhang
cs.AI
Аннотация
Большие языковые модели все более становятся ключевой технологией в искусственном интеллекте, науке и обществе в целом, однако оптимальные стратегии составления и фильтрации наборов данных остаются в значительной степени неясными. Многие из лучших моделей не обладают прозрачностью в процессах курирования данных и разработки моделей, что создает препятствие для разработки полностью открытых языковых моделей. В данной статье мы выделяем три основных вызова, связанных с данными, которые необходимо решить для продвижения открытых языковых моделей с открытым исходным кодом. Эти вызовы включают в себя (1) прозрачность в разработке моделей, включая процесс курирования данных, (2) доступ к большим объемам высококачественных данных и (3) наличие артефактов и метаданных для курирования и анализа наборов данных. Для решения этих вызовов мы выпускаем RedPajama-V1, открытую репродукцию набора данных LLaMA. Кроме того, мы выпускаем RedPajama-V2, огромный набор данных только из веба, состоящий из необработанных текстовых данных вместе с сигналами качества и метаданными. Вместе наборы данных RedPajama охватывают более 100 триллионов токенов, охватывая несколько областей, и их сигналы качества облегчают фильтрацию данных, нацеленную на вдохновение разработки множества новых наборов данных. На сегодняшний день эти наборы данных уже использовались при обучении мощных языковых моделей, используемых в производстве, таких как Snowflake Arctic, XGen от Salesforce и OLMo от AI2. Для предоставления представления о качестве RedPajama мы представляем ряд анализов и исследований абляции с моделями языка только с декодером с до 1,6 миллиарда параметров. Наши результаты демонстрируют, как сигналы качества для веб-данных могут быть эффективно использованы для курирования высококачественных подмножеств набора данных, подчеркивая потенциал RedPajama для продвижения разработки прозрачных и высокопроизводительных языковых моделей в масштабе.
English
Large language models are increasingly becoming a cornerstone technology in
artificial intelligence, the sciences, and society as a whole, yet the optimal
strategies for dataset composition and filtering remain largely elusive. Many
of the top-performing models lack transparency in their dataset curation and
model development processes, posing an obstacle to the development of fully
open language models. In this paper, we identify three core data-related
challenges that must be addressed to advance open-source language models. These
include (1) transparency in model development, including the data curation
process, (2) access to large quantities of high-quality data, and (3)
availability of artifacts and metadata for dataset curation and analysis. To
address these challenges, we release RedPajama-V1, an open reproduction of the
LLaMA training dataset. In addition, we release RedPajama-V2, a massive
web-only dataset consisting of raw, unfiltered text data together with quality
signals and metadata. Together, the RedPajama datasets comprise over 100
trillion tokens spanning multiple domains and with their quality signals
facilitate the filtering of data, aiming to inspire the development of numerous
new datasets. To date, these datasets have already been used in the training of
strong language models used in production, such as Snowflake Arctic,
Salesforce's XGen and AI2's OLMo. To provide insight into the quality of
RedPajama, we present a series of analyses and ablation studies with
decoder-only language models with up to 1.6B parameters. Our findings
demonstrate how quality signals for web data can be effectively leveraged to
curate high-quality subsets of the dataset, underscoring the potential of
RedPajama to advance the development of transparent and high-performing
language models at scale.Summary
AI-Generated Summary