El Conjunto Común v0.1: Un conjunto de datos de 8 TB de dominio público y textos con licencias abiertas
The Common Pile v0.1: An 8TB Dataset of Public Domain and Openly Licensed Text
June 5, 2025
Autores: Nikhil Kandpal, Brian Lester, Colin Raffel, Sebastian Majstorovic, Stella Biderman, Baber Abbasi, Luca Soldaini, Enrico Shippole, A. Feder Cooper, Aviya Skowron, John Kirchenbauer, Shayne Longpre, Lintang Sutawika, Alon Albalak, Zhenlin Xu, Guilherme Penedo, Loubna Ben Allal, Elie Bakouch, John David Pressman, Honglu Fan, Dashiell Stander, Guangyu Song, Aaron Gokaslan, Tom Goldstein, Brian R. Bartoldson, Bhavya Kailkhura, Tyler Murray
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) suelen entrenarse con cantidades enormes de texto no licenciado, una práctica que ha generado escrutinio debido a posibles infracciones de propiedad intelectual y preocupaciones éticas. Entrenar LLMs con texto bajo licencias abiertas representa un primer paso para abordar estos problemas, pero los esfuerzos previos de recopilación de datos han producido conjuntos de datos demasiado pequeños o de baja calidad para generar LLMs eficientes. Para cerrar esta brecha, recopilamos, organizamos y publicamos el Common Pile v0.1, una colección de ocho terabytes de texto bajo licencias abiertas diseñada para el preentrenamiento de LLMs. El Common Pile incluye contenido de 30 fuentes que abarcan diversos dominios, como artículos de investigación, código, libros, enciclopedias, materiales educativos, transcripciones de audio y más. De manera crucial, validamos nuestros esfuerzos entrenando dos LLMs de 7 mil millones de parámetros con texto del Common Pile: Comma v0.1-1T y Comma v0.1-2T, entrenados con 1 y 2 billones de tokens, respectivamente. Ambos modelos alcanzan un rendimiento competitivo en comparación con LLMs entrenados con texto no licenciado y con presupuestos computacionales similares, como Llama 1 y 2 7B. Además de publicar el Common Pile v0.1, también liberamos el código utilizado en su creación, así como la mezcla de entrenamiento y los puntos de control para los modelos Comma v0.1.
English
Large language models (LLMs) are typically trained on enormous quantities of
unlicensed text, a practice that has led to scrutiny due to possible
intellectual property infringement and ethical concerns. Training LLMs on
openly licensed text presents a first step towards addressing these issues, but
prior data collection efforts have yielded datasets too small or low-quality to
produce performant LLMs. To address this gap, we collect, curate, and release
the Common Pile v0.1, an eight terabyte collection of openly licensed text
designed for LLM pretraining. The Common Pile comprises content from 30 sources
that span diverse domains including research papers, code, books,
encyclopedias, educational materials, audio transcripts, and more. Crucially,
we validate our efforts by training two 7 billion parameter LLMs on text from
the Common Pile: Comma v0.1-1T and Comma v0.1-2T, trained on 1 and 2 trillion
tokens respectively. Both models attain competitive performance to LLMs trained
on unlicensed text with similar computational budgets, such as Llama 1 and 2
7B. In addition to releasing the Common Pile v0.1 itself, we also release the
code used in its creation as well as the training mixture and checkpoints for
the Comma v0.1 models.