Les Communs allemands - 154 milliards de tokens de texte sous licence ouverte pour les modèles de langage allemands

papers.abstract

Le développement des grands modèles de langage repose sur des corpus d’entraînement à grande échelle, mais la plupart contiennent des données dont le statut juridique est incertain, limitant ainsi le développement de modèles véritablement ouverts. Ce problème est exacerbé pour les langues non anglophones, où les textes sous licence ouverte restent extrêmement rares. Nous présentons le German Commons, la plus grande collection de textes allemands sous licence ouverte à ce jour. Il compile des données provenant de 41 sources couvrant sept domaines, incluant des textes juridiques, scientifiques, culturels, politiques, d’actualité, économiques et web. Grâce à un approvisionnement systématique auprès de fournisseurs de données établis et dont les licences sont vérifiables, il offre 154,56 milliards de tokens de texte de haute qualité pour l’entraînement de modèles de langage. Notre pipeline de traitement met en œuvre un filtrage de qualité approfondi, une déduplication et des corrections de formatage de texte, garantissant une qualité cohérente à travers des sources textuelles hétérogènes. Tous les sous-ensembles de domaines sont assortis de licences d’au moins CC-BY-SA 4.0 ou équivalent, assurant ainsi la conformité juridique pour l’entraînement des modèles et leur redistribution. Le German Commons comble donc une lacune critique en matière de données de pré-entraînement allemandes sous licence ouverte et permet le développement de modèles de langage allemands véritablement ouverts. Nous publions également le code pour la construction du corpus et le filtrage des données adapté aux textes en langue allemande, rendant le German Commons entièrement reproductible et extensible.

English

Large language model development relies on large-scale training corpora, yet most contain data of unclear licensing status, limiting the development of truly open models. This problem is exacerbated for non-English languages, where openly licensed text remains critically scarce. We introduce the German Commons, the largest collection of openly licensed German text to date. It compiles data from 41 sources across seven domains, encompassing legal, scientific, cultural, political, news, economic, and web text. Through systematic sourcing from established data providers with verifiable licensing, it yields 154.56 billion tokens of high-quality text for language model training. Our processing pipeline implements comprehensive quality filtering, deduplication, and text formatting fixes, ensuring consistent quality across heterogeneous text sources. All domain subsets feature licenses of at least CC-BY-SA 4.0 or equivalent, ensuring legal compliance for model training and redistribution. The German Commons therefore addresses the critical gap in openly licensed German pretraining data, and enables the development of truly open German language models. We also release code for corpus construction and data filtering tailored to German language text, rendering the German Commons fully reproducible and extensible.

Les Communs allemands - 154 milliards de tokens de texte sous licence ouverte pour les modèles de langage allemands

The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models

papers.abstract

Support