Wederhaling boven Diversiteit: Hoogwaardige Datafiltering voor Efficiënte Duitse Taalmodellering

Samenvatting

Recent onderzoek heeft aangetoond dat het filteren van enorme Engelstalige webcorpora naar hoogwaardige subsets de trainingsefficiëntie aanzienlijk verbetert. Voor talen met veel bronnen, zoals Duits, Frans of Japans, creëert agressief filteren echter een strategisch dilemma: moeten beoefenaars diversiteit prioriteren door één keer te trainen op grote hoeveelheden licht gefilterde webgegevens, of moeten ze kwaliteit prioriteren door strikt te filteren voor een hoogwaardige kern en deze over meerdere epochs te herhalen? Wij onderzoeken deze afweging voor het Duits door hiërarchische kwaliteitsfilters te construeren die worden toegepast op 500 miljoen webdocumenten, waarbij we training over meerdere epochs op de gefilterde subsets vergelijken met single-pass training op een divers corpus. Onze experimenten over verschillende modelschalen en tokenbudgets tonen aan dat het herhalen van hoogwaardige gegevens consistent beter presteert dan single-pass training op grotere, minder gefilterde sets. Opmerkelijk is dat het prestatieverschil aanhoudt, zelfs na 7 epochs. Onze bevindingen suggereren dat voor niet-Engelstalige LLM's semantische concentratie door kwaliteitsfiltering een haalbaarder pad biedt naar efficiënte taalmodellering dan het simpelweg maximaliseren van het volume unieke gegevens. Wij geven onze Duitse taalmodelen (genaamd Boldt), evenals onze opgeschoonde evaluatiebenchmarks, vrij aan de onderzoeksgemeenschap. Onze experimenten geven aan dat zij state-of-the-art resultaten behalen, ondanks training op 10-360x minder tokens dan vergelijkbare modellen.

English

Recent research has shown that filtering massive English web corpora into high-quality subsets significantly improves training efficiency. However, for high-resource non-English languages like German, French, or Japanese, aggressive filtering creates a strategic dilemma: should practitioners prioritize diversity by training once on large amounts of lightly filtered web data, or prioritize quality by strictly filtering for a high-quality core and repeating it over multiple epochs? We investigate this trade-off for German by constructing hierarchical quality filters applied to 500M web documents, comparing multi-epoch training on the filtered subsets against single-pass training on a diverse corpus. Our experiments across multiple model scales and token budgets show that repeating high-quality data consistently outperforms single-pass training on larger, less filtered sets. Notably, the performance gap persists even after 7 epochs. Our findings suggest that for non-English LLMs, semantic concentration through quality filtering offers a more viable path to efficient language modeling than simply maximizing unique data volume. We release our German language models (called Boldt), as well as our cleaned evaluation benchmarks to the research community. Our experiments indicate that they achieve state-of-the-art results despite training on 10-360x fewer tokens than comparable models.

Wederhaling boven Diversiteit: Hoogwaardige Datafiltering voor Efficiënte Duitse Taalmodellering

Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling

Samenvatting

Support