KletterMix: Klimmen naar hoogwaardige Duitse pretrainingsdata

Samenvatting

Hoogwaardige pretrainingsgegevens zijn een centraal ingrediënt in moderne taalmodellen, maar Duitstalige bronnen blijven aanzienlijk minder ontwikkeld dan hun Engelstalige tegenhangers: ze zijn vaak kleiner, minder zorgvuldig samengesteld, zwak gedocumenteerd en zelden gevalideerd door middel van gecontroleerde trainingsexperimenten. We introduceren KletterMix, een hoogwaardig Duits corpus voor het pretrainen en annealen van taalmodellen, ontworpen als een herbruikbaar datasetartefact voor de natuurlijke taalverwerking en modelleringsgemeenschap. KletterMix is gebouwd door een state-of-the-art Engels pretrainingcorpus naar het Duits te vertalen, met behoud van documentgrenzen, metadata, bronstructuur en thematische diversiteit. Deze constructie levert een Duits corpus op met de schaal en diversiteit van een moderne pretrainingdataset, terwijl directe vergelijking met de Engelse bron mogelijk is. We documenteren de dataset via een breed scala aan corpusanalyses, waaronder vertaalkwaliteit, documentlengteverdelingen, onderwerpdekking, bronsamenstelling en geografische metadata. Met behulp van COMETKiwi tonen we aan dat de vertaalde documenten een sterke kwaliteit bereiken in uiteenlopende domeinen, wat suggereert dat zorgvuldige vertaling veel van de semantische en stilistische rijkdom van het oorspronkelijke corpus kan behouden. Naast de datasetconstructie evalueren we KletterMix als trainingsgegevens. Door middel van gecontroleerde pretraining- en annealablatie-experimenten tegen gevestigde Duitse corpora laten we zien dat modellen die op KletterMix zijn getraind meetbare verbeteringen behalen bij Duitstalige downstream-evaluaties. Deze resultaten tonen aan dat zorgvuldig samengestelde vertaalde gegevens het Duitse pretrainingdatacolosysteem aanzienlijk kunnen versterken.

English

High-quality pretraining data is a central ingredient in modern language models, but German-language resources remain far less developed than their English counterparts: they are often smaller, less carefully curated, weakly documented, and rarely validated through controlled training experiments. We introduce KletterMix, a high-quality German corpus for language model pretraining and annealing, designed as a reusable dataset artifact for the natural language processing and modeling community. KletterMix is built by translating a state-of-the-art English pretraining corpus into German while preserving document boundaries, metadata, source structure, and topical diversity. This construction yields a German corpus with the scale and diversity of a modern pretraining dataset, while enabling direct comparison to its English source. We document the dataset through a broad set of corpus-level analyses, including translation quality, document length distributions, topic coverage, source composition, and geographic metadata. Using COMETKiwi, we show that the translated documents achieve strong quality across diverse domains, suggesting that careful translation can preserve much of the semantic and stylistic richness of the original corpus. Beyond dataset construction, we evaluate KletterMix as training data. Through controlled pretraining and annealing ablations against established German corpora, we show that models trained on KletterMix achieve measurable improvements on German-language downstream evaluations. These results demonstrate that carefully curated translated data can substantially strengthen the German pretraining data ecosystem.