KletterMix: Escalando Rumo a Dados de Pré-treinamento em Alemão de Alta Qualidade

Resumo

Dados de pré-treinamento de alta qualidade são um ingrediente central em modelos de linguagem modernos, mas os recursos em língua alemã permanecem muito menos desenvolvidos do que seus equivalentes em inglês: são frequentemente menores, menos cuidadosamente curados, mal documentados e raramente validados por meio de experimentos de treinamento controlados. Apresentamos o KletterMix, um corpus alemão de alta qualidade para pré-treinamento e recozimento de modelos de linguagem, projetado como um artefato de conjunto de dados reutilizável para a comunidade de processamento de linguagem natural e modelagem. O KletterMix é construído traduzindo um corpus de pré-treinamento em inglês de última geração para o alemão, preservando os limites dos documentos, os metadados, a estrutura da fonte e a diversidade temática. Essa construção produz um corpus alemão com a escala e a diversidade de um conjunto de dados de pré-treinamento moderno, ao mesmo tempo que permite a comparação direta com sua fonte em inglês. Documentamos o conjunto de dados por meio de um amplo conjunto de análises em nível de corpus, incluindo qualidade da tradução, distribuições de comprimento de documentos, cobertura de tópicos, composição da fonte e metadados geográficos. Usando o COMETKiwi, mostramos que os documentos traduzidos alcançam alta qualidade em diversos domínios, sugerindo que uma tradução cuidadosa pode preservar grande parte da riqueza semântica e estilística do corpus original. Além da construção do conjunto de dados, avaliamos o KletterMix como dado de treinamento. Por meio de ablações controladas de pré-treinamento e recozimento contra corpora alemães estabelecidos, mostramos que modelos treinados no KletterMix alcançam melhorias mensuráveis em avaliações downstream em língua alemã. Esses resultados demonstram que dados traduzidos cuidadosamente curados podem fortalecer substancialmente o ecossistema de dados de pré-treinamento alemão.

English

High-quality pretraining data is a central ingredient in modern language models, but German-language resources remain far less developed than their English counterparts: they are often smaller, less carefully curated, weakly documented, and rarely validated through controlled training experiments. We introduce KletterMix, a high-quality German corpus for language model pretraining and annealing, designed as a reusable dataset artifact for the natural language processing and modeling community. KletterMix is built by translating a state-of-the-art English pretraining corpus into German while preserving document boundaries, metadata, source structure, and topical diversity. This construction yields a German corpus with the scale and diversity of a modern pretraining dataset, while enabling direct comparison to its English source. We document the dataset through a broad set of corpus-level analyses, including translation quality, document length distributions, topic coverage, source composition, and geographic metadata. Using COMETKiwi, we show that the translated documents achieve strong quality across diverse domains, suggesting that careful translation can preserve much of the semantic and stylistic richness of the original corpus. Beyond dataset construction, we evaluate KletterMix as training data. Through controlled pretraining and annealing ablations against established German corpora, we show that models trained on KletterMix achieve measurable improvements on German-language downstream evaluations. These results demonstrate that carefully curated translated data can substantially strengthen the German pretraining data ecosystem.