Avaliando a Qualidade entre Idiomas: Uma Abordagem Multilíngue para Filtragem de Dados de Pré-treinamento com Modelos de Linguagem
Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models
May 28, 2025
Autores: Mehdi Ali, Manuel Brack, Max Lübbering, Elias Wendt, Abbas Goher Khan, Richard Rutmann, Alex Jude, Maurice Kraus, Alexander Arno Weber, Felix Stollenwerk, David Kaczér, Florian Mai, Lucie Flek, Rafet Sifa, Nicolas Flores-Herr, Joachim Köhler, Patrick Schramowski, Michael Fromm, Kristian Kersting
cs.AI
Resumo
Dados de treinamento multilíngue de alta qualidade são essenciais para o pré-treinamento eficaz de grandes modelos de linguagem (LLMs). No entanto, a disponibilidade de conjuntos de dados multilíngues de código aberto adequados permanece limitada. Os conjuntos de dados state-of-the-art existentes dependem principalmente de métodos de filtragem heurística, o que restringe tanto sua transferibilidade quanto escalabilidade entre idiomas. Aqui, apresentamos o JQL, uma abordagem sistemática que cuida de forma eficiente de dados multilíngues diversos e de alta qualidade em escala, reduzindo significativamente as demandas computacionais. O JQL destila as capacidades de anotação dos LLMs em anotadores leves baseados em embeddings multilíngues pré-treinados. Esses modelos exibem um desempenho multilíngue e entre idiomas robusto, mesmo para idiomas e scripts não vistos durante o treinamento. Avaliado empiricamente em 35 idiomas, o pipeline de anotação resultante supera substancialmente os métodos de filtragem heurística atuais, como o Fineweb2. O JQL melhora notavelmente a qualidade do treinamento de modelos subsequentes e aumenta as taxas de retenção de dados. Nossa pesquisa fornece insights práticos e recursos valiosos para a curadoria de dados multilíngues, elevando os padrões de desenvolvimento de conjuntos de dados multilíngues.
English
High-quality multilingual training data is essential for effectively
pretraining large language models (LLMs). Yet, the availability of suitable
open-source multilingual datasets remains limited. Existing state-of-the-art
datasets mostly rely on heuristic filtering methods, restricting both their
cross-lingual transferability and scalability. Here, we introduce JQL, a
systematic approach that efficiently curates diverse and high-quality
multilingual data at scale while significantly reducing computational demands.
JQL distills LLMs' annotation capabilities into lightweight annotators based on
pretrained multilingual embeddings. These models exhibit robust multilingual
and cross-lingual performance, even for languages and scripts unseen during
training. Evaluated empirically across 35 languages, the resulting annotation
pipeline substantially outperforms current heuristic filtering methods like
Fineweb2. JQL notably enhances downstream model training quality and increases
data retention rates. Our research provides practical insights and valuable
resources for multilingual data curation, raising the standards of multilingual
dataset development.