De Duitse Commons - 154 Miljard Tokens van Openlijk Gelicenseerde Tekst voor Duitse Taalmodellen
The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models
October 15, 2025
Auteurs: Lukas Gienapp, Christopher Schröder, Stefan Schweter, Christopher Akiki, Ferdinand Schlatt, Arden Zimmermann, Phillipe Genêt, Martin Potthast
cs.AI
Samenvatting
De ontwikkeling van grote taalmodelen is afhankelijk van grootschalige trainingscorpora, maar de meeste bevatten gegevens met onduidelijke licentiestatus, wat de ontwikkeling van echt open modellen beperkt. Dit probleem wordt verergerd voor niet-Engelse talen, waar openlijk gelicentieerde tekst nog steeds schaars is. Wij introduceren de German Commons, de grootste verzameling openlijk gelicentieerde Duitse tekst tot nu toe. Het compileert gegevens uit 41 bronnen in zeven domeinen, waaronder juridische, wetenschappelijke, culturele, politieke, nieuws-, economische en webteksten. Door systematische inwinning van gevestigde dataleveranciers met verifieerbare licenties, levert het 154,56 miljard tokens aan hoogwaardige tekst voor taalmodeltraining. Onze verwerkingspijplijn implementeert uitgebreide kwaliteitsfiltering, deduplicatie en tekstformatteringcorrecties, waardoor een consistente kwaliteit over heterogene tekstbronnen wordt gegarandeerd. Alle domeinsubsets hebben licenties van ten minste CC-BY-SA 4.0 of equivalent, wat juridische conformiteit voor modeltraining en herdistributie verzekert. De German Commons adresseert daarmee het kritieke tekort aan openlijk gelicentieerde Duitse pretrainingsgegevens en maakt de ontwikkeling van echt open Duitse taalmodelen mogelijk. We geven ook code vrij voor corpusconstructie en datafiltering die is afgestemd op Duitse tekst, waardoor de German Commons volledig reproduceerbaar en uitbreidbaar is.
English
Large language model development relies on large-scale training corpora, yet
most contain data of unclear licensing status, limiting the development of
truly open models. This problem is exacerbated for non-English languages, where
openly licensed text remains critically scarce. We introduce the German
Commons, the largest collection of openly licensed German text to date. It
compiles data from 41 sources across seven domains, encompassing legal,
scientific, cultural, political, news, economic, and web text. Through
systematic sourcing from established data providers with verifiable licensing,
it yields 154.56 billion tokens of high-quality text for language model
training. Our processing pipeline implements comprehensive quality filtering,
deduplication, and text formatting fixes, ensuring consistent quality across
heterogeneous text sources. All domain subsets feature licenses of at least
CC-BY-SA 4.0 or equivalent, ensuring legal compliance for model training and
redistribution. The German Commons therefore addresses the critical gap in
openly licensed German pretraining data, and enables the development of truly
open German language models. We also release code for corpus construction and
data filtering tailored to German language text, rendering the German Commons
fully reproducible and extensible.