RedPajama: открытый набор данных для обучения больших языковых моделейRedPajama: an Open Dataset for Training Large Language Models
Большие языковые модели все более становятся ключевой технологией в искусственном интеллекте, науке и обществе в целом, однако оптимальные стратегии составления и фильтрации наборов данных остаются в значительной степени неясными. Многие из лучших моделей не обладают прозрачностью в процессах курирования данных и разработки моделей, что создает препятствие для разработки полностью открытых языковых моделей. В данной статье мы выделяем три основных вызова, связанных с данными, которые необходимо решить для продвижения открытых языковых моделей с открытым исходным кодом. Эти вызовы включают в себя (1) прозрачность в разработке моделей, включая процесс курирования данных, (2) доступ к большим объемам высококачественных данных и (3) наличие артефактов и метаданных для курирования и анализа наборов данных. Для решения этих вызовов мы выпускаем RedPajama-V1, открытую репродукцию набора данных LLaMA. Кроме того, мы выпускаем RedPajama-V2, огромный набор данных только из веба, состоящий из необработанных текстовых данных вместе с сигналами качества и метаданными. Вместе наборы данных RedPajama охватывают более 100 триллионов токенов, охватывая несколько областей, и их сигналы качества облегчают фильтрацию данных, нацеленную на вдохновение разработки множества новых наборов данных. На сегодняшний день эти наборы данных уже использовались при обучении мощных языковых моделей, используемых в производстве, таких как Snowflake Arctic, XGen от Salesforce и OLMo от AI2. Для предоставления представления о качестве RedPajama мы представляем ряд анализов и исследований абляции с моделями языка только с декодером с до 1,6 миллиарда параметров. Наши результаты демонстрируют, как сигналы качества для веб-данных могут быть эффективно использованы для курирования высококачественных подмножеств набора данных, подчеркивая потенциал RedPajama для продвижения разработки прозрачных и высокопроизводительных языковых моделей в масштабе.