Repetición sobre Diversidad: Filtrado de Datos de Alta Señal para el Modelado Eficiente del Idioma Alemán

Resumen

Investigaciones recientes demuestran que filtrar corpus web masivos en inglés para obtener subconjuntos de alta calidad mejora significativamente la eficiencia del entrenamiento. Sin embargo, para idiomas no ingleses con muchos recursos, como el alemán, el francés o el japonés, un filtrado agresivo crea un dilema estratégico: ¿deben los profesionales priorizar la diversidad entrenando una vez con grandes cantidades de datos web ligeramente filtrados, o priorizar la calidad filtrando estrictamente para obtener un núcleo de alta calidad y repetirlo durante múltiples épocas? Investigamos esta disyuntiva para el alemán construyendo filtros de calidad jerárquicos aplicados a 500 millones de documentos web, comparando el entrenamiento multi-época en los subconjuntos filtrados contra el entrenamiento de una sola pasada en un corpus diverso. Nuestros experimentos en múltiples escalas de modelos y presupuestos de tokens muestran que repetir datos de alta calidad supera consistentemente al entrenamiento de una sola pasada en conjuntos más grandes y menos filtrados. Cabe destacar que la brecha de rendimiento persiste incluso después de 7 épocas. Nuestros hallazgos sugieren que para los LLM no ingleses, la concentración semántica mediante el filtrado por calidad ofrece un camino más viable para el modelado eficiente del lenguaje que simplemente maximizar el volumen único de datos. Liberamos nuestros modelos de lenguaje alemán (llamados Boldt), así como nuestros benchmarks de evaluación limpiados, para la comunidad investigadora. Nuestros experimentos indican que logran resultados de vanguardia a pesar de haberse entrenado con 10-360 veces menos tokens que modelos comparables.

English

Recent research has shown that filtering massive English web corpora into high-quality subsets significantly improves training efficiency. However, for high-resource non-English languages like German, French, or Japanese, aggressive filtering creates a strategic dilemma: should practitioners prioritize diversity by training once on large amounts of lightly filtered web data, or prioritize quality by strictly filtering for a high-quality core and repeating it over multiple epochs? We investigate this trade-off for German by constructing hierarchical quality filters applied to 500M web documents, comparing multi-epoch training on the filtered subsets against single-pass training on a diverse corpus. Our experiments across multiple model scales and token budgets show that repeating high-quality data consistently outperforms single-pass training on larger, less filtered sets. Notably, the performance gap persists even after 7 epochs. Our findings suggest that for non-English LLMs, semantic concentration through quality filtering offers a more viable path to efficient language modeling than simply maximizing unique data volume. We release our German language models (called Boldt), as well as our cleaned evaluation benchmarks to the research community. Our experiments indicate that they achieve state-of-the-art results despite training on 10-360x fewer tokens than comparable models.

Repetición sobre Diversidad: Filtrado de Datos de Alta Señal para el Modelado Eficiente del Idioma Alemán

Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling

Resumen

Support