ドイツ・コモンズ - ドイツ語言語モデルのための1540億トークンのオープンライセンステキスト
The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models
October 15, 2025
著者: Lukas Gienapp, Christopher Schröder, Stefan Schweter, Christopher Akiki, Ferdinand Schlatt, Arden Zimmermann, Phillipe Genêt, Martin Potthast
cs.AI
要旨
大規模言語モデルの開発は大規模なトレーニングコーパスに依存していますが、そのほとんどはライセンス状態が不明なデータを含んでおり、真にオープンなモデルの開発を制限しています。この問題は非英語言語においてさらに深刻で、オープンライセンスのテキストが極めて不足しています。本稿では、これまでで最大のオープンライセンスドイツ語テキストコレクションである「German Commons」を紹介します。これは、法律、科学、文化、政治、ニュース、経済、ウェブテキストの7つのドメインにわたる41のソースからのデータを集約しています。検証可能なライセンスを持つ確立されたデータプロバイダーからの体系的な収集により、154.56億トークンの高品質なテキストを言語モデルトレーニング用に提供します。私たちの処理パイプラインは、包括的な品質フィルタリング、重複排除、テキストフォーマット修正を実装し、異種のテキストソース間で一貫した品質を確保します。すべてのドメインサブセットは、少なくともCC-BY-SA 4.0または同等のライセンスを特徴としており、モデルトレーニングと再配布の法的遵守を保証します。したがって、German Commonsは、オープンライセンスのドイツ語事前学習データにおける重要なギャップを解消し、真にオープンなドイツ語言語モデルの開発を可能にします。また、ドイツ語テキストに特化したコーパス構築とデータフィルタリングのコードも公開し、German Commonsを完全に再現可能かつ拡張可能にしています。
English
Large language model development relies on large-scale training corpora, yet
most contain data of unclear licensing status, limiting the development of
truly open models. This problem is exacerbated for non-English languages, where
openly licensed text remains critically scarce. We introduce the German
Commons, the largest collection of openly licensed German text to date. It
compiles data from 41 sources across seven domains, encompassing legal,
scientific, cultural, political, news, economic, and web text. Through
systematic sourcing from established data providers with verifiable licensing,
it yields 154.56 billion tokens of high-quality text for language model
training. Our processing pipeline implements comprehensive quality filtering,
deduplication, and text formatting fixes, ensuring consistent quality across
heterogeneous text sources. All domain subsets feature licenses of at least
CC-BY-SA 4.0 or equivalent, ensuring legal compliance for model training and
redistribution. The German Commons therefore addresses the critical gap in
openly licensed German pretraining data, and enables the development of truly
open German language models. We also release code for corpus construction and
data filtering tailored to German language text, rendering the German Commons
fully reproducible and extensible.