Répétition plutôt que diversité : Filtrage de données à fort signal pour un modélisation linguistique allemande économe en échantillons

Résumé

Des recherches récentes ont montré que le filtrage de corpus web anglais massifs en sous-ensembles de haute qualité améliore significativement l'efficacité de l'entraînement. Cependant, pour les langues non anglaises à ressources abondantes comme l'allemand, le français ou le japonais, un filtrage agressif crée un dilemme stratégique : les praticiens doivent-ils privilégier la diversité en s'entraînant une seule fois sur de grandes quantités de données web faiblement filtrées, ou privilégier la qualité en filtrant strictement pour obtenir un noyau de haute qualité et le réutiliser sur plusieurs époques ? Nous étudions ce compromis pour l'allemand en construisant des filtres de qualité hiérarchiques appliqués à 500 millions de documents web, comparant un entraînement multi-époques sur les sous-ensembles filtrés à un entraînement en une seule passe sur un corpus diversifié. Nos expériences, menées à différentes échelles de modèles et avec différents budgets de tokens, montrent que la répétition de données de haute qualité surpasse systématiquement l'entraînement en une seule passe sur des ensembles plus vastes et moins filtrés. Notamment, l'écart de performance persiste même après 7 époques. Nos résultats suggèrent que pour les LLM non anglophones, la concentration sémantique via le filtrage qualitatif offre une voie plus viable pour un modélisation linguistique efficace que la simple maximisation du volume de données uniques. Nous mettons à disposition de la communauté scientifique nos modèles linguistiques allemands (nommés Boldt), ainsi que nos benchmarks d'évaluation nettoyés. Nos expériences indiquent qu'ils obtiennent des résultats à l'état de l'art bien qu'ayant été entraînés sur 10 à 360 fois moins de tokens que les modèles comparables.

English

Recent research has shown that filtering massive English web corpora into high-quality subsets significantly improves training efficiency. However, for high-resource non-English languages like German, French, or Japanese, aggressive filtering creates a strategic dilemma: should practitioners prioritize diversity by training once on large amounts of lightly filtered web data, or prioritize quality by strictly filtering for a high-quality core and repeating it over multiple epochs? We investigate this trade-off for German by constructing hierarchical quality filters applied to 500M web documents, comparing multi-epoch training on the filtered subsets against single-pass training on a diverse corpus. Our experiments across multiple model scales and token budgets show that repeating high-quality data consistently outperforms single-pass training on larger, less filtered sets. Notably, the performance gap persists even after 7 epochs. Our findings suggest that for non-English LLMs, semantic concentration through quality filtering offers a more viable path to efficient language modeling than simply maximizing unique data volume. We release our German language models (called Boldt), as well as our cleaned evaluation benchmarks to the research community. Our experiments indicate that they achieve state-of-the-art results despite training on 10-360x fewer tokens than comparable models.

Répétition plutôt que diversité : Filtrage de données à fort signal pour un modélisation linguistique allemande économe en échantillons

Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling

Résumé

Support