다양성 대신 반복: 효율적인 샘플링을 위한 독일어 언어 모델링의 고신호 데이터 필터링

초록

최근 연구에 따르면 방대한 영어 웹 코퍼스를 고품질 하위 집합으로 필터링하면 훈련 효율이 크게 향상되는 것으로 나타났습니다. 그러나 독일어, 프랑스어, 일본어와 같은 고자원 비영어권 언어의 경우 공격적인 필터링은 전략적 딜레마를 야기합니다. 즉, 연구자들은 약하게 필터링된 대량의 웹 데이터를 1회 훈련하여 다양성을 우선시해야 할까요, 아니면 고품질 핵심 데이터를 엄격하게 필터링하여 여러 에포크에 걸쳐 반복 훈련함으로써 품질을 우선시해야 할까요? 본 연구는 5억 개의 웹 문서에 계층적 품질 필터를 적용하여 이 trade-off를 독일어에 대해 분석합니다. 필터링된 하위 집합에 대한 다중 에포크 훈련과 다양한 코퍼스에 대한 단일 패스 훈련을 비교한 결과, 여러 모델 규모와 토큰 예산에서 고품질 데이터 반복이 더 크고 덜 필터링된 집합의 단일 패스 훈련보다 지속적으로 우수한 성능을 보였습니다. 특히 이 성능 격차는 7에포크 이후에도 유지되었습니다. 본 연구 결과는 비영어권 LLM의 경우 고유 데이터 양 극대화보다 품질 필터링을 통한 의미 농축이 효율적인 언어 모델링을 위한 더 실현 가능한 경로임을 시사합니다. 우리는 독일어 언어 모델(Boldt)과 정제된 평가 벤치마크를 연구 커뮤니티에 공개합니다. 실험 결과, 해당 모델들은 비교 대상 모델 대비 10-360배 적은 토큰으로 훈련되었음에도 최첨단 성능을 달성하는 것으로 나타났습니다.

English

Recent research has shown that filtering massive English web corpora into high-quality subsets significantly improves training efficiency. However, for high-resource non-English languages like German, French, or Japanese, aggressive filtering creates a strategic dilemma: should practitioners prioritize diversity by training once on large amounts of lightly filtered web data, or prioritize quality by strictly filtering for a high-quality core and repeating it over multiple epochs? We investigate this trade-off for German by constructing hierarchical quality filters applied to 500M web documents, comparing multi-epoch training on the filtered subsets against single-pass training on a diverse corpus. Our experiments across multiple model scales and token budgets show that repeating high-quality data consistently outperforms single-pass training on larger, less filtered sets. Notably, the performance gap persists even after 7 epochs. Our findings suggest that for non-English LLMs, semantic concentration through quality filtering offers a more viable path to efficient language modeling than simply maximizing unique data volume. We release our German language models (called Boldt), as well as our cleaned evaluation benchmarks to the research community. Our experiments indicate that they achieve state-of-the-art results despite training on 10-360x fewer tokens than comparable models.

다양성 대신 반복: 효율적인 샘플링을 위한 독일어 언어 모델링의 고신호 데이터 필터링

Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling

초록

Support