言語を超えた品質評価:言語モデルを用いた多言語事前学習データフィルタリングのアプローチ
Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models
May 28, 2025
著者: Mehdi Ali, Manuel Brack, Max Lübbering, Elias Wendt, Abbas Goher Khan, Richard Rutmann, Alex Jude, Maurice Kraus, Alexander Arno Weber, Felix Stollenwerk, David Kaczér, Florian Mai, Lucie Flek, Rafet Sifa, Nicolas Flores-Herr, Joachim Köhler, Patrick Schramowski, Michael Fromm, Kristian Kersting
cs.AI
要旨
高品質な多言語トレーニングデータは、大規模言語モデル(LLM)の効果的な事前学習に不可欠です。しかし、適切なオープンソースの多言語データセットの可用性は依然として限られています。既存の最先端データセットは、主にヒューリスティックなフィルタリング手法に依存しており、そのクロスリンガル転移性とスケーラビリティの両方が制限されています。本論文では、JQLを紹介します。これは、計算需要を大幅に削減しながら、多様で高品質な多言語データを大規模に効率的にキュレーションする体系的なアプローチです。JQLは、事前学習済みの多言語埋め込みに基づく軽量なアノテーターに、LLMのアノテーション能力を蒸留します。これらのモデルは、トレーニング中に見られなかった言語やスクリプトに対しても、堅牢な多言語およびクロスリンガル性能を示します。35の言語で実証的に評価された結果、このアノテーションパイプラインは、Fineweb2のような現在のヒューリスティックフィルタリング手法を大幅に上回りました。JQLは、下流モデルのトレーニング品質を向上させ、データ保持率を増加させることに特に貢献します。本研究は、多言語データキュレーションの実践的な洞察と貴重なリソースを提供し、多言語データセット開発の基準を引き上げます。
English
High-quality multilingual training data is essential for effectively
pretraining large language models (LLMs). Yet, the availability of suitable
open-source multilingual datasets remains limited. Existing state-of-the-art
datasets mostly rely on heuristic filtering methods, restricting both their
cross-lingual transferability and scalability. Here, we introduce JQL, a
systematic approach that efficiently curates diverse and high-quality
multilingual data at scale while significantly reducing computational demands.
JQL distills LLMs' annotation capabilities into lightweight annotators based on
pretrained multilingual embeddings. These models exhibit robust multilingual
and cross-lingual performance, even for languages and scripts unseen during
training. Evaluated empirically across 35 languages, the resulting annotation
pipeline substantially outperforms current heuristic filtering methods like
Fineweb2. JQL notably enhances downstream model training quality and increases
data retention rates. Our research provides practical insights and valuable
resources for multilingual data curation, raising the standards of multilingual
dataset development.Summary
AI-Generated Summary