ChatPaper.aiChatPaper

The Common Pile v0.1: Ein 8TB-Datensatz aus gemeinfreien und offen lizenzierten Texten

The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text

June 5, 2025
Autoren: Nikhil Kandpal, Brian Lester, Colin Raffel, Sebastian Majstorovic, Stella Biderman, Baber Abbasi, Luca Soldaini, Enrico Shippole, A. Feder Cooper, Aviya Skowron, John Kirchenbauer, Shayne Longpre, Lintang Sutawika, Alon Albalak, Zhenlin Xu, Guilherme Penedo, Loubna Ben Allal, Elie Bakouch, John David Pressman, Honglu Fan, Dashiell Stander, Guangyu Song, Aaron Gokaslan, Tom Goldstein, Brian R. Bartoldson, Bhavya Kailkhura, Tyler Murray
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) werden typischerweise auf enormen Mengen von nicht lizenziertem Text trainiert, eine Praxis, die aufgrund möglicher Verstöße gegen geistiges Eigentum und ethischer Bedenken unter Beobachtung steht. Das Training von LLMs auf offen lizenzierten Texten stellt einen ersten Schritt zur Bewältigung dieser Probleme dar, aber bisherige Datensammlungsbemühungen haben Datensätze hervorgebracht, die zu klein oder von zu geringer Qualität waren, um leistungsstarke LLMs zu erzeugen. Um diese Lücke zu schließen, sammeln, kuratieren und veröffentlichen wir den Common Pile v0.1, eine acht Terabyte umfassende Sammlung von offen lizenziertem Text, die für das Vortraining von LLMs konzipiert ist. Der Common Pile umfasst Inhalte aus 30 Quellen, die verschiedene Domänen abdecken, darunter Forschungsarbeiten, Code, Bücher, Enzyklopädien, Bildungsmaterialien, Audiotranskripte und mehr. Entscheidend ist, dass wir unsere Bemühungen validieren, indem wir zwei LLMs mit 7 Milliarden Parametern auf Text aus dem Common Pile trainieren: Comma v0.1-1T und Comma v0.1-2T, die auf 1 bzw. 2 Billionen Tokens trainiert wurden. Beide Modelle erreichen eine wettbewerbsfähige Leistung im Vergleich zu LLMs, die mit ähnlichen Rechenbudgets auf nicht lizenziertem Text trainiert wurden, wie z.B. Llama 1 und 2 7B. Neben der Veröffentlichung des Common Pile v0.1 selbst stellen wir auch den bei seiner Erstellung verwendeten Code sowie die Trainingsmischung und Checkpoints für die Comma v0.1-Modelle zur Verfügung.
English
Large language models (LLMs) are typically trained on enormous quantities of unlicensed text, a practice that has led to scrutiny due to possible intellectual property infringement and ethical concerns. Training LLMs on openly licensed text presents a first step towards addressing these issues, but prior data collection efforts have yielded datasets too small or low-quality to produce performant LLMs. To address this gap, we collect, curate, and release the Common Pile v0.1, an eight terabyte collection of openly licensed text designed for LLM pretraining. The Common Pile comprises content from 30 sources that span diverse domains including research papers, code, books, encyclopedias, educational materials, audio transcripts, and more. Crucially, we validate our efforts by training two 7 billion parameter LLMs on text from the Common Pile: Comma v0.1-1T and Comma v0.1-2T, trained on 1 and 2 trillion tokens respectively. Both models attain competitive performance to LLMs trained on unlicensed text with similar computational budgets, such as Llama 1 and 2 7B. In addition to releasing the Common Pile v0.1 itself, we also release the code used in its creation as well as the training mixture and checkpoints for the Comma v0.1 models.
PDF271June 6, 2025