Немецкие общественные ресурсы — 154 миллиарда токенов текста с открытой лицензией для языковых моделей немецкого языка

Аннотация

Разработка крупных языковых моделей зависит от масштабных обучающих корпусов, однако большинство из них содержат данные с неясным лицензионным статусом, что ограничивает создание действительно открытых моделей. Эта проблема усугубляется для неанглийских языков, где тексты с открытыми лицензиями остаются крайне ограниченными. Мы представляем German Commons — крупнейшую на сегодняшний день коллекцию текстов на немецком языке с открытыми лицензиями. Она объединяет данные из 41 источника в семи областях, включая юридические, научные, культурные, политические, новостные, экономические и веб-тексты. Благодаря систематическому сбору данных от проверенных поставщиков с подтвержденными лицензиями, корпус содержит 154,56 миллиарда токенов высококачественного текста для обучения языковых моделей. Наш процесс обработки включает комплексную фильтрацию качества, удаление дубликатов и исправление форматирования текста, что обеспечивает согласованное качество для разнородных источников. Все подмножества данных имеют лицензии не менее CC-BY-SA 4.0 или эквивалентные, что гарантирует юридическую совместимость для обучения моделей и их распространения. Таким образом, German Commons устраняет критический пробел в открытых данных для предварительного обучения на немецком языке и позволяет разрабатывать действительно открытые немецкие языковые модели. Мы также публикуем код для создания корпуса и фильтрации данных, адаптированный для текстов на немецком языке, что делает German Commons полностью воспроизводимым и расширяемым.

English

Large language model development relies on large-scale training corpora, yet most contain data of unclear licensing status, limiting the development of truly open models. This problem is exacerbated for non-English languages, where openly licensed text remains critically scarce. We introduce the German Commons, the largest collection of openly licensed German text to date. It compiles data from 41 sources across seven domains, encompassing legal, scientific, cultural, political, news, economic, and web text. Through systematic sourcing from established data providers with verifiable licensing, it yields 154.56 billion tokens of high-quality text for language model training. Our processing pipeline implements comprehensive quality filtering, deduplication, and text formatting fixes, ensuring consistent quality across heterogeneous text sources. All domain subsets feature licenses of at least CC-BY-SA 4.0 or equivalent, ensuring legal compliance for model training and redistribution. The German Commons therefore addresses the critical gap in openly licensed German pretraining data, and enables the development of truly open German language models. We also release code for corpus construction and data filtering tailored to German language text, rendering the German Commons fully reproducible and extensible.

Немецкие общественные ресурсы — 154 миллиарда токенов текста с открытой лицензией для языковых моделей немецкого языка

The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models

Аннотация

Support