O German Commons - 154 Bilhões de Tokens de Texto com Licença Aberta para Modelos de Linguagem em Alemão

Resumo

O desenvolvimento de grandes modelos de linguagem depende de corpora de treinamento em larga escala, porém a maioria contém dados com status de licenciamento incerto, limitando o desenvolvimento de modelos verdadeiramente abertos. Esse problema é agravado para idiomas não ingleses, onde textos com licenças abertas permanecem criticamente escassos. Apresentamos o German Commons, a maior coleção de textos em alemão com licenças abertas até o momento. Ele compila dados de 41 fontes em sete domínios, abrangendo textos jurídicos, científicos, culturais, políticos, noticiosos, econômicos e da web. Por meio de uma coleta sistemática de provedores de dados estabelecidos com licenciamento verificável, ele resulta em 154,56 bilhões de tokens de texto de alta qualidade para treinamento de modelos de linguagem. Nosso pipeline de processamento implementa filtragem de qualidade abrangente, remoção de duplicatas e correções de formatação de texto, garantindo qualidade consistente em fontes de texto heterogêneas. Todos os subconjuntos de domínio apresentam licenças de pelo menos CC-BY-SA 4.0 ou equivalente, assegurando conformidade legal para treinamento e redistribuição de modelos. O German Commons, portanto, aborda a lacuna crítica em dados de pré-treinamento em alemão com licenças abertas e possibilita o desenvolvimento de modelos de linguagem em alemão verdadeiramente abertos. Também disponibilizamos código para construção de corpus e filtragem de dados adaptados a textos em alemão, tornando o German Commons totalmente reproduzível e extensível.

English

Large language model development relies on large-scale training corpora, yet most contain data of unclear licensing status, limiting the development of truly open models. This problem is exacerbated for non-English languages, where openly licensed text remains critically scarce. We introduce the German Commons, the largest collection of openly licensed German text to date. It compiles data from 41 sources across seven domains, encompassing legal, scientific, cultural, political, news, economic, and web text. Through systematic sourcing from established data providers with verifiable licensing, it yields 154.56 billion tokens of high-quality text for language model training. Our processing pipeline implements comprehensive quality filtering, deduplication, and text formatting fixes, ensuring consistent quality across heterogeneous text sources. All domain subsets feature licenses of at least CC-BY-SA 4.0 or equivalent, ensuring legal compliance for model training and redistribution. The German Commons therefore addresses the critical gap in openly licensed German pretraining data, and enables the development of truly open German language models. We also release code for corpus construction and data filtering tailored to German language text, rendering the German Commons fully reproducible and extensible.

O German Commons - 154 Bilhões de Tokens de Texto com Licença Aberta para Modelos de Linguagem em Alemão

The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models

Resumo

Support