Les Communs allemands - 154 milliards de tokens de texte sous licence ouverte pour les modèles de langage allemands
The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models
October 15, 2025
papers.authors: Lukas Gienapp, Christopher Schröder, Stefan Schweter, Christopher Akiki, Ferdinand Schlatt, Arden Zimmermann, Phillipe Genêt, Martin Potthast
cs.AI
papers.abstract
Le développement des grands modèles de langage repose sur des corpus d’entraînement à grande échelle, mais la plupart contiennent des données dont le statut juridique est incertain, limitant ainsi le développement de modèles véritablement ouverts. Ce problème est exacerbé pour les langues non anglophones, où les textes sous licence ouverte restent extrêmement rares. Nous présentons le German Commons, la plus grande collection de textes allemands sous licence ouverte à ce jour. Il compile des données provenant de 41 sources couvrant sept domaines, incluant des textes juridiques, scientifiques, culturels, politiques, d’actualité, économiques et web. Grâce à un approvisionnement systématique auprès de fournisseurs de données établis et dont les licences sont vérifiables, il offre 154,56 milliards de tokens de texte de haute qualité pour l’entraînement de modèles de langage. Notre pipeline de traitement met en œuvre un filtrage de qualité approfondi, une déduplication et des corrections de formatage de texte, garantissant une qualité cohérente à travers des sources textuelles hétérogènes. Tous les sous-ensembles de domaines sont assortis de licences d’au moins CC-BY-SA 4.0 ou équivalent, assurant ainsi la conformité juridique pour l’entraînement des modèles et leur redistribution. Le German Commons comble donc une lacune critique en matière de données de pré-entraînement allemandes sous licence ouverte et permet le développement de modèles de langage allemands véritablement ouverts. Nous publions également le code pour la construction du corpus et le filtrage des données adapté aux textes en langue allemande, rendant le German Commons entièrement reproductible et extensible.
English
Large language model development relies on large-scale training corpora, yet
most contain data of unclear licensing status, limiting the development of
truly open models. This problem is exacerbated for non-English languages, where
openly licensed text remains critically scarce. We introduce the German
Commons, the largest collection of openly licensed German text to date. It
compiles data from 41 sources across seven domains, encompassing legal,
scientific, cultural, political, news, economic, and web text. Through
systematic sourcing from established data providers with verifiable licensing,
it yields 154.56 billion tokens of high-quality text for language model
training. Our processing pipeline implements comprehensive quality filtering,
deduplication, and text formatting fixes, ensuring consistent quality across
heterogeneous text sources. All domain subsets feature licenses of at least
CC-BY-SA 4.0 or equivalent, ensuring legal compliance for model training and
redistribution. The German Commons therefore addresses the critical gap in
openly licensed German pretraining data, and enables the development of truly
open German language models. We also release code for corpus construction and
data filtering tailored to German language text, rendering the German Commons
fully reproducible and extensible.