Common Pile v0.1: набор данных объемом 8 ТБ, состоящий из текстов, находящихся в общественном достоянии и распространяемых под открытыми лицензиями
The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text
June 5, 2025
Авторы: Nikhil Kandpal, Brian Lester, Colin Raffel, Sebastian Majstorovic, Stella Biderman, Baber Abbasi, Luca Soldaini, Enrico Shippole, A. Feder Cooper, Aviya Skowron, John Kirchenbauer, Shayne Longpre, Lintang Sutawika, Alon Albalak, Zhenlin Xu, Guilherme Penedo, Loubna Ben Allal, Elie Bakouch, John David Pressman, Honglu Fan, Dashiell Stander, Guangyu Song, Aaron Gokaslan, Tom Goldstein, Brian R. Bartoldson, Bhavya Kailkhura, Tyler Murray
cs.AI
Аннотация
Крупные языковые модели (LLM) обычно обучаются на огромных объемах текста, не имеющего лицензии, что вызывает вопросы из-за возможного нарушения прав интеллектуальной собственности и этических проблем. Обучение LLM на текстах с открытой лицензией представляет собой первый шаг к решению этих вопросов, однако предыдущие попытки сбора данных привели к созданию наборов, которые были либо слишком малы, либо недостаточно качественны для обучения эффективных LLM. Чтобы устранить этот пробел, мы собрали, обработали и опубликовали Common Pile v0.1 — коллекцию текстов объемом восемь терабайт с открытой лицензией, предназначенную для предварительного обучения LLM. Common Pile включает материалы из 30 источников, охватывающих различные области, такие как научные статьи, код, книги, энциклопедии, образовательные материалы, расшифровки аудио и многое другое. Важно отметить, что мы подтвердили эффективность нашего подхода, обучив две LLM с 7 миллиардами параметров на текстах из Common Pile: Comma v0.1-1T и Comma v0.1-2T, обученные на 1 и 2 триллионах токенов соответственно. Обе модели демонстрируют конкурентоспособные результаты по сравнению с LLM, обученными на нелицензированных текстах при аналогичных вычислительных затратах, такими как Llama 1 и 2 7B. В дополнение к публикации Common Pile v0.1, мы также выпускаем код, использованный для его создания, а также конфигурации обучения и контрольные точки для моделей Comma v0.1.
English
Large language models (LLMs) are typically trained on enormous quantities of
unlicensed text, a practice that has led to scrutiny due to possible
intellectual property infringement and ethical concerns. Training LLMs on
openly licensed text presents a first step towards addressing these issues, but
prior data collection efforts have yielded datasets too small or low-quality to
produce performant LLMs. To address this gap, we collect, curate, and release
the Common Pile v0.1, an eight terabyte collection of openly licensed text
designed for LLM pretraining. The Common Pile comprises content from 30 sources
that span diverse domains including research papers, code, books,
encyclopedias, educational materials, audio transcripts, and more. Crucially,
we validate our efforts by training two 7 billion parameter LLMs on text from
the Common Pile: Comma v0.1-1T and Comma v0.1-2T, trained on 1 and 2 trillion
tokens respectively. Both models attain competitive performance to LLMs trained
on unlicensed text with similar computational budgets, such as Llama 1 and 2
7B. In addition to releasing the Common Pile v0.1 itself, we also release the
code used in its creation as well as the training mixture and checkpoints for
the Comma v0.1 models.