Le Common Pile v0.1 : Un jeu de données de 8 To de textes du domaine public et sous licence ouverte
The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text
June 5, 2025
Auteurs: Nikhil Kandpal, Brian Lester, Colin Raffel, Sebastian Majstorovic, Stella Biderman, Baber Abbasi, Luca Soldaini, Enrico Shippole, A. Feder Cooper, Aviya Skowron, John Kirchenbauer, Shayne Longpre, Lintang Sutawika, Alon Albalak, Zhenlin Xu, Guilherme Penedo, Loubna Ben Allal, Elie Bakouch, John David Pressman, Honglu Fan, Dashiell Stander, Guangyu Song, Aaron Gokaslan, Tom Goldstein, Brian R. Bartoldson, Bhavya Kailkhura, Tyler Murray
cs.AI
Résumé
Les grands modèles de langage (LLMs) sont généralement entraînés sur des quantités massives de texte non licencié, une pratique qui a suscité des interrogations en raison de possibles violations de propriété intellectuelle et de préoccupations éthiques. L'entraînement des LLMs sur du texte sous licence ouverte représente une première étape pour aborder ces problèmes, mais les efforts antérieurs de collecte de données ont produit des ensembles de données trop petits ou de qualité insuffisante pour générer des LLMs performants. Pour combler cette lacune, nous collectons, organisons et publions le Common Pile v0.1, une collection de huit téraoctets de texte sous licence ouverte conçue pour le pré-entraînement des LLMs. Le Common Pile comprend du contenu provenant de 30 sources couvrant divers domaines, notamment des articles de recherche, du code, des livres, des encyclopédies, des matériels éducatifs, des transcriptions audio, et plus encore. De manière cruciale, nous validons nos efforts en entraînant deux LLMs de 7 milliards de paramètres sur du texte issu du Common Pile : Comma v0.1-1T et Comma v0.1-2T, entraînés respectivement sur 1 et 2 billions de tokens. Les deux modèles atteignent des performances compétitives par rapport aux LLMs entraînés sur du texte non licencié avec des budgets de calcul similaires, tels que Llama 1 et 2 7B. En plus de publier le Common Pile v0.1 lui-même, nous publions également le code utilisé pour sa création ainsi que le mélange d'entraînement et les points de contrôle pour les modèles Comma v0.1.
English
Large language models (LLMs) are typically trained on enormous quantities of
unlicensed text, a practice that has led to scrutiny due to possible
intellectual property infringement and ethical concerns. Training LLMs on
openly licensed text presents a first step towards addressing these issues, but
prior data collection efforts have yielded datasets too small or low-quality to
produce performant LLMs. To address this gap, we collect, curate, and release
the Common Pile v0.1, an eight terabyte collection of openly licensed text
designed for LLM pretraining. The Common Pile comprises content from 30 sources
that span diverse domains including research papers, code, books,
encyclopedias, educational materials, audio transcripts, and more. Crucially,
we validate our efforts by training two 7 billion parameter LLMs on text from
the Common Pile: Comma v0.1-1T and Comma v0.1-2T, trained on 1 and 2 trillion
tokens respectively. Both models attain competitive performance to LLMs trained
on unlicensed text with similar computational budgets, such as Llama 1 and 2
7B. In addition to releasing the Common Pile v0.1 itself, we also release the
code used in its creation as well as the training mixture and checkpoints for
the Comma v0.1 models.