The German Commons - 154 Miliardi di Token di Testo con Licenza Aperta per Modelli Linguistici in Tedesco

Abstract

Lo sviluppo di modelli linguistici di grandi dimensioni si basa su corpora di addestramento su larga scala, tuttavia la maggior parte di essi contiene dati con uno stato di licenza non chiaro, limitando lo sviluppo di modelli veramente aperti. Questo problema è aggravato per le lingue non inglesi, dove i testi con licenza aperta rimangono estremamente scarsi. Introduciamo il German Commons, la più grande raccolta di testi tedeschi con licenza aperta fino ad oggi. Compila dati da 41 fonti in sette domini, che includono testi legali, scientifici, culturali, politici, giornalistici, economici e web. Attraverso un approvvigionamento sistematico da fornitori di dati consolidati con licenze verificabili, produce 154,56 miliardi di token di testo di alta qualità per l'addestramento di modelli linguistici. La nostra pipeline di elaborazione implementa un filtraggio di qualità completo, deduplicazione e correzioni della formattazione del testo, garantendo una qualità coerente tra fonti di testo eterogenee. Tutti i sottoinsiemi di dominio presentano licenze di almeno CC-BY-SA 4.0 o equivalenti, assicurando la conformità legale per l'addestramento e la ridistribuzione dei modelli. Il German Commons affronta quindi la lacuna critica nei dati di pre-addestramento tedeschi con licenza aperta e consente lo sviluppo di modelli linguistici tedeschi veramente aperti. Rilasciamo anche il codice per la costruzione del corpus e il filtraggio dei dati specifico per i testi in lingua tedesca, rendendo il German Commons completamente riproducibile ed estensibile.

English

Large language model development relies on large-scale training corpora, yet most contain data of unclear licensing status, limiting the development of truly open models. This problem is exacerbated for non-English languages, where openly licensed text remains critically scarce. We introduce the German Commons, the largest collection of openly licensed German text to date. It compiles data from 41 sources across seven domains, encompassing legal, scientific, cultural, political, news, economic, and web text. Through systematic sourcing from established data providers with verifiable licensing, it yields 154.56 billion tokens of high-quality text for language model training. Our processing pipeline implements comprehensive quality filtering, deduplication, and text formatting fixes, ensuring consistent quality across heterogeneous text sources. All domain subsets feature licenses of at least CC-BY-SA 4.0 or equivalent, ensuring legal compliance for model training and redistribution. The German Commons therefore addresses the critical gap in openly licensed German pretraining data, and enables the development of truly open German language models. We also release code for corpus construction and data filtering tailored to German language text, rendering the German Commons fully reproducible and extensible.

The German Commons - 154 Miliardi di Token di Testo con Licenza Aperta per Modelli Linguistici in Tedesco

The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models

Abstract

Support