言語を超えた品質評価：言語モデルを用いた多言語事前学習データフィルタリングのアプローチ

要旨

高品質な多言語トレーニングデータは、大規模言語モデル（LLM）の効果的な事前学習に不可欠です。しかし、適切なオープンソースの多言語データセットの可用性は依然として限られています。既存の最先端データセットは、主にヒューリスティックなフィルタリング手法に依存しており、そのクロスリンガル転移性とスケーラビリティの両方が制限されています。本論文では、JQLを紹介します。これは、計算需要を大幅に削減しながら、多様で高品質な多言語データを大規模に効率的にキュレーションする体系的なアプローチです。JQLは、事前学習済みの多言語埋め込みに基づく軽量なアノテーターに、LLMのアノテーション能力を蒸留します。これらのモデルは、トレーニング中に見られなかった言語やスクリプトに対しても、堅牢な多言語およびクロスリンガル性能を示します。35の言語で実証的に評価された結果、このアノテーションパイプラインは、Fineweb2のような現在のヒューリスティックフィルタリング手法を大幅に上回りました。JQLは、下流モデルのトレーニング品質を向上させ、データ保持率を増加させることに特に貢献します。本研究は、多言語データキュレーションの実践的な洞察と貴重なリソースを提供し、多言語データセット開発の基準を引き上げます。

English

High-quality multilingual training data is essential for effectively pretraining large language models (LLMs). Yet, the availability of suitable open-source multilingual datasets remains limited. Existing state-of-the-art datasets mostly rely on heuristic filtering methods, restricting both their cross-lingual transferability and scalability. Here, we introduce JQL, a systematic approach that efficiently curates diverse and high-quality multilingual data at scale while significantly reducing computational demands. JQL distills LLMs' annotation capabilities into lightweight annotators based on pretrained multilingual embeddings. These models exhibit robust multilingual and cross-lingual performance, even for languages and scripts unseen during training. Evaluated empirically across 35 languages, the resulting annotation pipeline substantially outperforms current heuristic filtering methods like Fineweb2. JQL notably enhances downstream model training quality and increases data retention rates. Our research provides practical insights and valuable resources for multilingual data curation, raising the standards of multilingual dataset development.