Wiederholung statt Vielfalt: Hochwertige Datenfilterung für ressourceneffizientes Sprachmodelltraining im Deutschen

Zusammenfassung

Aktuelle Forschungsergebnisse zeigen, dass die Filterung massiver englischer Webkorpora in hochwertige Teilmengen die Trainingseffizienz erheblich verbessert. Für ressourcenstarke Nicht-Englisch-Sprachen wie Deutsch, Französisch oder Japanisch stellt eine aggressive Filterung jedoch ein strategisches Dilemma dar: Sollten Praktiker die Diversität priorisieren, indem sie einmalig mit großen Mengen leicht gefilterter Webdaten trainieren, oder die Qualität, indem sie streng für einen hochwertigen Kern filtern und diesen über mehrere Epochen wiederholen? Wir untersuchen diesen Zielkonflikt für die deutsche Sprache, indem wir hierarchische Qualitätsfilter auf 500 Millionen Webdokumente anwenden und das Training über mehrere Epochen auf den gefilterten Teilmengen mit einem Single-Pass-Training auf einem diversen Korpus vergleichen. Unsere Experimente über verschiedene Modellgrößen und Token-Budgets hinweg zeigen, dass die Wiederholung hochwertiger Daten durchweg besser abschneidet als das Single-Pass-Training auf größeren, weniger streng gefilterten Datensätzen. Bemerkenswerterweise bleibt die Leistungslücke auch nach sieben Epochen bestehen. Unsere Ergebnisse deuten darauf hin, dass für nicht-englische LLMs die semantische Konzentration durch Qualitätsfilterung einen vielversprechenderen Weg für effizientes Sprachmodellierung bietet als die bloße Maximierung des Volumens an einzigartigen Daten. Wir veröffentlichen unsere deutschsprachigen Modelle (genannt Boldt) sowie unsere bereinigten Evaluierungsbenchmarks für die Forschungsgemeinschaft. Unsere Experimente zeigen, dass diese state-of-the-art Ergebnisse erzielen, obwohl sie mit 10-360 mal weniger Tokens trainiert wurden als vergleichbare Modelle.

English

Recent research has shown that filtering massive English web corpora into high-quality subsets significantly improves training efficiency. However, for high-resource non-English languages like German, French, or Japanese, aggressive filtering creates a strategic dilemma: should practitioners prioritize diversity by training once on large amounts of lightly filtered web data, or prioritize quality by strictly filtering for a high-quality core and repeating it over multiple epochs? We investigate this trade-off for German by constructing hierarchical quality filters applied to 500M web documents, comparing multi-epoch training on the filtered subsets against single-pass training on a diverse corpus. Our experiments across multiple model scales and token budgets show that repeating high-quality data consistently outperforms single-pass training on larger, less filtered sets. Notably, the performance gap persists even after 7 epochs. Our findings suggest that for non-English LLMs, semantic concentration through quality filtering offers a more viable path to efficient language modeling than simply maximizing unique data volume. We release our German language models (called Boldt), as well as our cleaned evaluation benchmarks to the research community. Our experiments indicate that they achieve state-of-the-art results despite training on 10-360x fewer tokens than comparable models.

Wiederholung statt Vielfalt: Hochwertige Datenfilterung für ressourceneffizientes Sprachmodelltraining im Deutschen

Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling

Zusammenfassung

Support