The Common Pile v0.1: un dataset da 8TB di testi di pubblico dominio e con licenza aperta
The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text
June 5, 2025
Autori: Nikhil Kandpal, Brian Lester, Colin Raffel, Sebastian Majstorovic, Stella Biderman, Baber Abbasi, Luca Soldaini, Enrico Shippole, A. Feder Cooper, Aviya Skowron, John Kirchenbauer, Shayne Longpre, Lintang Sutawika, Alon Albalak, Zhenlin Xu, Guilherme Penedo, Loubna Ben Allal, Elie Bakouch, John David Pressman, Honglu Fan, Dashiell Stander, Guangyu Song, Aaron Gokaslan, Tom Goldstein, Brian R. Bartoldson, Bhavya Kailkhura, Tyler Murray
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) vengono tipicamente addestrati su enormi quantità di testo non licenziato, una pratica che ha suscitato attenzione a causa di possibili violazioni della proprietà intellettuale e preoccupazioni etiche. Addestrare gli LLM su testo con licenza aperta rappresenta un primo passo verso la risoluzione di questi problemi, ma i precedenti sforzi di raccolta dati hanno prodotto dataset troppo piccoli o di bassa qualità per generare LLM performanti. Per colmare questa lacuna, abbiamo raccolto, curato e rilasciato il Common Pile v0.1, una collezione di otto terabyte di testo con licenza aperta progettata per il pre-addestramento di LLM. Il Common Pile comprende contenuti provenienti da 30 fonti che coprono diversi ambiti, tra cui articoli di ricerca, codice, libri, enciclopedie, materiali educativi, trascrizioni audio e altro. In modo cruciale, abbiamo validato i nostri sforzi addestrando due LLM da 7 miliardi di parametri su testo del Common Pile: Comma v0.1-1T e Comma v0.1-2T, addestrati rispettivamente su 1 e 2 trilioni di token. Entrambi i modelli raggiungono prestazioni competitive rispetto agli LLM addestrati su testo non licenziato con budget computazionali simili, come Llama 1 e 2 7B. Oltre a rilasciare il Common Pile v0.1 stesso, abbiamo anche rilasciato il codice utilizzato per la sua creazione, nonché la miscela di addestramento e i checkpoint per i modelli Comma v0.1.
English
Large language models (LLMs) are typically trained on enormous quantities of
unlicensed text, a practice that has led to scrutiny due to possible
intellectual property infringement and ethical concerns. Training LLMs on
openly licensed text presents a first step towards addressing these issues, but
prior data collection efforts have yielded datasets too small or low-quality to
produce performant LLMs. To address this gap, we collect, curate, and release
the Common Pile v0.1, an eight terabyte collection of openly licensed text
designed for LLM pretraining. The Common Pile comprises content from 30 sources
that span diverse domains including research papers, code, books,
encyclopedias, educational materials, audio transcripts, and more. Crucially,
we validate our efforts by training two 7 billion parameter LLMs on text from
the Common Pile: Comma v0.1-1T and Comma v0.1-2T, trained on 1 and 2 trillion
tokens respectively. Both models attain competitive performance to LLMs trained
on unlicensed text with similar computational budgets, such as Llama 1 and 2
7B. In addition to releasing the Common Pile v0.1 itself, we also release the
code used in its creation as well as the training mixture and checkpoints for
the Comma v0.1 models.