Die deutschen Gemeingüter – 154 Milliarden Token offen lizenzierter Texte für deutsche Sprachmodelle

papers.abstract

Die Entwicklung großer Sprachmodelle basiert auf umfangreichen Trainingskorpora, doch die meisten enthalten Daten mit unklarem Lizenzstatus, was die Entwicklung wirklich offener Modelle einschränkt. Dieses Problem verschärft sich für nicht-englische Sprachen, da offen lizenzierte Texte dort nach wie vor äußerst knapp sind. Wir stellen das German Commons vor, die bisher größte Sammlung offen lizenzierter deutscher Texte. Es vereint Daten aus 41 Quellen aus sieben Domänen, darunter rechtliche, wissenschaftliche, kulturelle, politische, Nachrichten-, wirtschaftliche und Web-Texte. Durch systematische Beschaffung von etablierten Datenanbietern mit überprüfbaren Lizenzen ergibt sich ein Korpus von 154,56 Milliarden Token hochwertiger Texte für das Training von Sprachmodellen. Unsere Verarbeitungspipeline implementiert umfassende Qualitätsfilterung, Deduplizierung und Korrekturen der Textformatierung, um eine konsistente Qualität über heterogene Textquellen hinweg sicherzustellen. Alle Domänenuntergruppen verfügen über Lizenzen von mindestens CC-BY-SA 4.0 oder gleichwertig, was die rechtliche Konformität für das Modelltraining und die Weiterverbreitung gewährleistet. Das German Commons schließt somit die kritische Lücke bei offen lizenzierten deutschen Vortrainingsdaten und ermöglicht die Entwicklung wirklich offener deutscher Sprachmodelle. Wir veröffentlichen zudem Code für die Korpuskonstruktion und Datenfilterung, der speziell auf deutsche Texte zugeschnitten ist, wodurch das German Commons vollständig reproduzierbar und erweiterbar wird.

English

Large language model development relies on large-scale training corpora, yet most contain data of unclear licensing status, limiting the development of truly open models. This problem is exacerbated for non-English languages, where openly licensed text remains critically scarce. We introduce the German Commons, the largest collection of openly licensed German text to date. It compiles data from 41 sources across seven domains, encompassing legal, scientific, cultural, political, news, economic, and web text. Through systematic sourcing from established data providers with verifiable licensing, it yields 154.56 billion tokens of high-quality text for language model training. Our processing pipeline implements comprehensive quality filtering, deduplication, and text formatting fixes, ensuring consistent quality across heterogeneous text sources. All domain subsets feature licenses of at least CC-BY-SA 4.0 or equivalent, ensuring legal compliance for model training and redistribution. The German Commons therefore addresses the critical gap in openly licensed German pretraining data, and enables the development of truly open German language models. We also release code for corpus construction and data filtering tailored to German language text, rendering the German Commons fully reproducible and extensible.

Die deutschen Gemeingüter – 154 Milliarden Token offen lizenzierter Texte für deutsche Sprachmodelle

The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models

papers.abstract

Support