O Common Pile v0.1: Um Conjunto de Dados de 8TB de Texto em Domínio Público e Licenciado Abertamente
The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text
June 5, 2025
Autores: Nikhil Kandpal, Brian Lester, Colin Raffel, Sebastian Majstorovic, Stella Biderman, Baber Abbasi, Luca Soldaini, Enrico Shippole, A. Feder Cooper, Aviya Skowron, John Kirchenbauer, Shayne Longpre, Lintang Sutawika, Alon Albalak, Zhenlin Xu, Guilherme Penedo, Loubna Ben Allal, Elie Bakouch, John David Pressman, Honglu Fan, Dashiell Stander, Guangyu Song, Aaron Gokaslan, Tom Goldstein, Brian R. Bartoldson, Bhavya Kailkhura, Tyler Murray
cs.AI
Resumo
Grandes modelos de linguagem (LLMs) são tipicamente treinados em quantidades enormes de texto não licenciado, uma prática que tem gerado escrutínio devido a possíveis violações de propriedade intelectual e preocupações éticas. Treinar LLMs em texto abertamente licenciado representa um primeiro passo para abordar essas questões, mas esforços anteriores de coleta de dados resultaram em conjuntos de dados pequenos demais ou de baixa qualidade para produzir LLMs de alto desempenho. Para preencher essa lacuna, coletamos, curamos e lançamos o Common Pile v0.1, uma coleção de oito terabytes de texto abertamente licenciado projetado para pré-treinamento de LLMs. O Common Pile inclui conteúdo de 30 fontes que abrangem diversos domínios, como artigos de pesquisa, código, livros, enciclopédias, materiais educacionais, transcrições de áudio e mais. Crucialmente, validamos nossos esforços treinando dois LLMs de 7 bilhões de parâmetros com texto do Common Pile: Comma v0.1-1T e Comma v0.1-2T, treinados com 1 e 2 trilhões de tokens, respectivamente. Ambos os modelos alcançam desempenho competitivo em comparação com LLMs treinados em texto não licenciado com orçamentos computacionais similares, como Llama 1 e 2 7B. Além de lançar o Common Pile v0.1, também disponibilizamos o código usado em sua criação, bem como a mistura de treinamento e os checkpoints dos modelos Comma v0.1.
English
Large language models (LLMs) are typically trained on enormous quantities of
unlicensed text, a practice that has led to scrutiny due to possible
intellectual property infringement and ethical concerns. Training LLMs on
openly licensed text presents a first step towards addressing these issues, but
prior data collection efforts have yielded datasets too small or low-quality to
produce performant LLMs. To address this gap, we collect, curate, and release
the Common Pile v0.1, an eight terabyte collection of openly licensed text
designed for LLM pretraining. The Common Pile comprises content from 30 sources
that span diverse domains including research papers, code, books,
encyclopedias, educational materials, audio transcripts, and more. Crucially,
we validate our efforts by training two 7 billion parameter LLMs on text from
the Common Pile: Comma v0.1-1T and Comma v0.1-2T, trained on 1 and 2 trillion
tokens respectively. Both models attain competitive performance to LLMs trained
on unlicensed text with similar computational budgets, such as Llama 1 and 2
7B. In addition to releasing the Common Pile v0.1 itself, we also release the
code used in its creation as well as the training mixture and checkpoints for
the Comma v0.1 models.