Los Comunes Alemanes: 154 Mil Millones de Tokens de Texto con Licencia Abierta para Modelos de Lenguaje en Alemán

Resumen

El desarrollo de modelos de lenguaje de gran escala depende de corpus de entrenamiento extensos; sin embargo, la mayoría contiene datos con un estatus de licencia poco claro, lo que limita el desarrollo de modelos verdaderamente abiertos. Este problema se agrava en el caso de idiomas distintos al inglés, donde los textos con licencias abiertas siguen siendo extremadamente escasos. Presentamos el German Commons, la colección más grande de textos en alemán con licencias abiertas hasta la fecha. Este compila datos de 41 fuentes en siete dominios, que abarcan textos legales, científicos, culturales, políticos, noticiosos, económicos y de la web. Mediante la obtención sistemática de proveedores de datos establecidos con licencias verificables, se obtienen 154.56 mil millones de tokens de texto de alta calidad para el entrenamiento de modelos de lenguaje. Nuestro pipeline de procesamiento implementa filtros de calidad exhaustivos, deduplicación y correcciones de formato de texto, garantizando una calidad consistente en fuentes de texto heterogéneas. Todos los subconjuntos de dominios cuentan con licencias de al menos CC-BY-SA 4.0 o equivalentes, asegurando el cumplimiento legal para el entrenamiento y redistribución de modelos. Por lo tanto, el German Commons aborda la brecha crítica en datos de preentrenamiento en alemán con licencias abiertas y permite el desarrollo de modelos de lenguaje en alemán verdaderamente abiertos. También publicamos código para la construcción del corpus y filtrado de datos adaptado a textos en alemán, haciendo que el German Commons sea completamente reproducible y extensible.

English

Large language model development relies on large-scale training corpora, yet most contain data of unclear licensing status, limiting the development of truly open models. This problem is exacerbated for non-English languages, where openly licensed text remains critically scarce. We introduce the German Commons, the largest collection of openly licensed German text to date. It compiles data from 41 sources across seven domains, encompassing legal, scientific, cultural, political, news, economic, and web text. Through systematic sourcing from established data providers with verifiable licensing, it yields 154.56 billion tokens of high-quality text for language model training. Our processing pipeline implements comprehensive quality filtering, deduplication, and text formatting fixes, ensuring consistent quality across heterogeneous text sources. All domain subsets feature licenses of at least CC-BY-SA 4.0 or equivalent, ensuring legal compliance for model training and redistribution. The German Commons therefore addresses the critical gap in openly licensed German pretraining data, and enables the development of truly open German language models. We also release code for corpus construction and data filtering tailored to German language text, rendering the German Commons fully reproducible and extensible.

Los Comunes Alemanes: 154 Mil Millones de Tokens de Texto con Licencia Abierta para Modelos de Lenguaje en Alemán

The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models

Resumen

Support