多様性よりも反復:サンプル効率の高いドイツ語言語モデリングのための高品質データフィルタリング
Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling
April 30, 2026
著者: Ansar Aynetdinov, Patrick Haller, Alan Akbik
cs.AI
要旨
近年の研究では、大規模な英語ウェブコーパスを高品質なサブセットにフィルタリングすることで、学習効率が大幅に向上することが示されています。しかし、ドイツ語、フランス語、日本語などの高リソース非英語言語において、積極的なフィルタリングは戦略的ジレンマを生み出します:多様性を優先して大量の軽くフィルタリングされたウェブデータで一度だけ学習すべきか、それとも高品質なコアを厳密にフィルタリングして複数エポック繰り返すことで品質を優先すべきでしょうか?本研究では、5億のウェブ文書に階層的品質フィルターを適用し、フィルタリングされたサブセットでの複数エポック学習と、多様なコーパスでの単一パス学習を比較することで、このトレードオフをドイツ語について検証します。複数のモデル規模とトークン予算にわたる実験により、高品質データの繰り返し学習が、より大規模でフィルタリングの緩いデータセットでの単一パス学習を一貫して上回ることを示します。特に、この性能差は7エポック後も持続することが注目されます。我々の発見は、非英語LLMにおいては、単純にユニークなデータ量を最大化するよりも、品質フィルタリングによる意味的集中が効率的な言語モデリングへのより実現可能な道筋を提供することを示唆しています。我々はドイツ語言語モデル(Boldtと命名)および精選された評価ベンチマークを研究コミュニティに公開します。実験結果は、同等のモデルと比べて10〜360倍少ないトークンで学習したにも関わらず、それらが最先端の結果を達成することを示しています。
English
Recent research has shown that filtering massive English web corpora into high-quality subsets significantly improves training efficiency. However, for high-resource non-English languages like German, French, or Japanese, aggressive filtering creates a strategic dilemma: should practitioners prioritize diversity by training once on large amounts of lightly filtered web data, or prioritize quality by strictly filtering for a high-quality core and repeating it over multiple epochs? We investigate this trade-off for German by constructing hierarchical quality filters applied to 500M web documents, comparing multi-epoch training on the filtered subsets against single-pass training on a diverse corpus. Our experiments across multiple model scales and token budgets show that repeating high-quality data consistently outperforms single-pass training on larger, less filtered sets. Notably, the performance gap persists even after 7 epochs. Our findings suggest that for non-English LLMs, semantic concentration through quality filtering offers a more viable path to efficient language modeling than simply maximizing unique data volume. We release our German language models (called Boldt), as well as our cleaned evaluation benchmarks to the research community. Our experiments indicate that they achieve state-of-the-art results despite training on 10-360x fewer tokens than comparable models.