ChatPaper.aiChatPaper

CulturaX: Um Conjunto de Dados Limpo, Enormoso e Multilíngue para Modelos de Linguagem de Grande Escala em 167 Idiomas

CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages

September 17, 2023
Autores: Thuat Nguyen, Chien Van Nguyen, Viet Dac Lai, Hieu Man, Nghia Trung Ngo, Franck Dernoncourt, Ryan A. Rossi, Thien Huu Nguyen
cs.AI

Resumo

Os fatores motrizes por trás do desenvolvimento de modelos de linguagem de grande escala (LLMs, na sigla em inglês) com capacidades impressionantes de aprendizado são seus tamanhos colossais e conjuntos de dados de treinamento extensos. Juntamente com os avanços no processamento de linguagem natural, os LLMs têm sido frequentemente disponibilizados ao público para fomentar investigações mais profundas e aplicações. No entanto, quando se trata dos conjuntos de dados de treinamento para esses LLMs, especialmente os modelos mais recentes e de ponta, eles muitas vezes não são totalmente divulgados. A criação de dados de treinamento para LLMs de alto desempenho envolve uma limpeza e deduplicação extensas para garantir o nível necessário de qualidade. A falta de transparência em relação aos dados de treinamento tem, assim, dificultado a pesquisa sobre a atribuição e a abordagem de problemas como alucinações e vieses nos LLMs, prejudicando esforços de replicação e avanços adicionais na comunidade. Esses desafios tornam-se ainda mais pronunciados em cenários de aprendizado multilíngue, onde os conjuntos de dados de texto multilíngue disponíveis são frequentemente coletados e limpos de forma inadequada. Consequentemente, há uma escassez de conjuntos de dados de código aberto e prontamente utilizáveis para treinar LLMs de forma eficaz em vários idiomas. Para superar esse problema, apresentamos o CulturaX, um conjunto de dados multilíngue substancial com 6,3 trilhões de tokens em 167 idiomas, projetado para o desenvolvimento de LLMs. Nosso conjunto de dados passa por uma limpeza e deduplicação meticulosas por meio de um pipeline rigoroso de múltiplos estágios para alcançar a melhor qualidade para o treinamento de modelos, incluindo identificação de idioma, filtragem baseada em URL, limpeza baseada em métricas, refinamento de documentos e deduplicação de dados. O CulturaX é totalmente disponibilizado ao público no HuggingFace para facilitar pesquisas e avanços em LLMs multilíngues: https://huggingface.co/datasets/uonlp/CulturaX.
English
The driving factors behind the development of large language models (LLMs) with impressive learning capabilities are their colossal model sizes and extensive training datasets. Along with the progress in natural language processing, LLMs have been frequently made accessible to the public to foster deeper investigation and applications. However, when it comes to training datasets for these LLMs, especially the recent state-of-the-art models, they are often not fully disclosed. Creating training data for high-performing LLMs involves extensive cleaning and deduplication to ensure the necessary level of quality. The lack of transparency for training data has thus hampered research on attributing and addressing hallucination and bias issues in LLMs, hindering replication efforts and further advancements in the community. These challenges become even more pronounced in multilingual learning scenarios, where the available multilingual text datasets are often inadequately collected and cleaned. Consequently, there is a lack of open-source and readily usable dataset to effectively train LLMs in multiple languages. To overcome this issue, we present CulturaX, a substantial multilingual dataset with 6.3 trillion tokens in 167 languages, tailored for LLM development. Our dataset undergoes meticulous cleaning and deduplication through a rigorous pipeline of multiple stages to accomplish the best quality for model training, including language identification, URL-based filtering, metric-based cleaning, document refinement, and data deduplication. CulturaX is fully released to the public in HuggingFace to facilitate research and advancements in multilingual LLMs: https://huggingface.co/datasets/uonlp/CulturaX.
PDF864February 8, 2026