ChatPaper.aiChatPaper

The Common Pile v0.1: Een 8TB-dataset van publiek domein en openlijk gelicentieerde tekst

The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text

June 5, 2025
Auteurs: Nikhil Kandpal, Brian Lester, Colin Raffel, Sebastian Majstorovic, Stella Biderman, Baber Abbasi, Luca Soldaini, Enrico Shippole, A. Feder Cooper, Aviya Skowron, John Kirchenbauer, Shayne Longpre, Lintang Sutawika, Alon Albalak, Zhenlin Xu, Guilherme Penedo, Loubna Ben Allal, Elie Bakouch, John David Pressman, Honglu Fan, Dashiell Stander, Guangyu Song, Aaron Gokaslan, Tom Goldstein, Brian R. Bartoldson, Bhavya Kailkhura, Tyler Murray
cs.AI

Samenvatting

Grote taalmmodellen (LLMs) worden doorgaans getraind op enorme hoeveelheden niet-gelicentieerde tekst, een praktijk die onder de loep is genomen vanwege mogelijke inbreuk op intellectueel eigendom en ethische zorgen. Het trainen van LLMs op openlijk gelicentieerde tekst vormt een eerste stap om deze problemen aan te pakken, maar eerdere inspanningen voor het verzamelen van data hebben datasets opgeleverd die te klein of van te lage kwaliteit zijn om goed presterende LLMs te produceren. Om dit gat te dichten, verzamelen, cureren en publiceren wij de Common Pile v0.1, een collectie van acht terabyte aan openlijk gelicentieerde tekst die is ontworpen voor het vooraf trainen van LLMs. De Common Pile bevat content van 30 bronnen die diverse domeinen bestrijken, waaronder onderzoeksartikelen, code, boeken, encyclopedieën, educatieve materialen, audiotranscripties en meer. Cruciaal is dat we onze inspanningen valideren door twee LLMs met 7 miljard parameters te trainen op tekst uit de Common Pile: Comma v0.1-1T en Comma v0.1-2T, getraind op respectievelijk 1 en 2 biljoen tokens. Beide modellen bereiken een competitieve prestatieniveau ten opzichte van LLMs die zijn getraind op niet-gelicentieerde tekst met vergelijkbare rekenbudgetten, zoals Llama 1 en 2 7B. Naast het uitbrengen van de Common Pile v0.1 zelf, publiceren we ook de code die is gebruikt voor het maken ervan, evenals het trainingsmengsel en de checkpoints voor de Comma v0.1-modellen.
English
Large language models (LLMs) are typically trained on enormous quantities of unlicensed text, a practice that has led to scrutiny due to possible intellectual property infringement and ethical concerns. Training LLMs on openly licensed text presents a first step towards addressing these issues, but prior data collection efforts have yielded datasets too small or low-quality to produce performant LLMs. To address this gap, we collect, curate, and release the Common Pile v0.1, an eight terabyte collection of openly licensed text designed for LLM pretraining. The Common Pile comprises content from 30 sources that span diverse domains including research papers, code, books, encyclopedias, educational materials, audio transcripts, and more. Crucially, we validate our efforts by training two 7 billion parameter LLMs on text from the Common Pile: Comma v0.1-1T and Comma v0.1-2T, trained on 1 and 2 trillion tokens respectively. Both models attain competitive performance to LLMs trained on unlicensed text with similar computational budgets, such as Llama 1 and 2 7B. In addition to releasing the Common Pile v0.1 itself, we also release the code used in its creation as well as the training mixture and checkpoints for the Comma v0.1 models.
PDF371June 6, 2025