CulturaX: Un conjunto de datos limpio, masivo y multilingüe para modelos de lenguaje extenso en 167 idiomas
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages
September 17, 2023
Autores: Thuat Nguyen, Chien Van Nguyen, Viet Dac Lai, Hieu Man, Nghia Trung Ngo, Franck Dernoncourt, Ryan A. Rossi, Thien Huu Nguyen
cs.AI
Resumen
Los factores clave detrás del desarrollo de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) con capacidades de aprendizaje impresionantes son sus tamaños colosales y los extensos conjuntos de datos de entrenamiento. Junto con los avances en el procesamiento del lenguaje natural, los LLMs se han hecho frecuentemente accesibles al público para fomentar una investigación más profunda y aplicaciones prácticas. Sin embargo, cuando se trata de los conjuntos de datos de entrenamiento para estos LLMs, especialmente los modelos más recientes y avanzados, a menudo no se divulgan por completo. La creación de datos de entrenamiento para LLMs de alto rendimiento implica una limpieza y deduplicación extensas para garantizar el nivel de calidad necesario. La falta de transparencia en los datos de entrenamiento ha obstaculizado la investigación sobre la atribución y el abordaje de problemas como las alucinaciones y los sesgos en los LLMs, dificultando los esfuerzos de replicación y los avances adicionales en la comunidad. Estos desafíos se vuelven aún más pronunciados en escenarios de aprendizaje multilingüe, donde los conjuntos de datos de texto multilingüe disponibles a menudo están recopilados y limpiados de manera inadecuada. En consecuencia, existe una falta de conjuntos de datos de código abierto y listos para usar que permitan entrenar eficazmente LLMs en múltiples idiomas. Para superar este problema, presentamos CulturaX, un conjunto de datos multilingüe sustancial con 6.3 billones de tokens en 167 idiomas, diseñado específicamente para el desarrollo de LLMs. Nuestro conjunto de datos se somete a una limpieza y deduplicación meticulosas a través de un riguroso pipeline de múltiples etapas para lograr la mejor calidad en el entrenamiento de modelos, incluyendo identificación de idiomas, filtrado basado en URLs, limpieza basada en métricas, refinamiento de documentos y deduplicación de datos. CulturaX se ha publicado completamente al público en HuggingFace para facilitar la investigación y los avances en LLMs multilingües: https://huggingface.co/datasets/uonlp/CulturaX.
English
The driving factors behind the development of large language models (LLMs)
with impressive learning capabilities are their colossal model sizes and
extensive training datasets. Along with the progress in natural language
processing, LLMs have been frequently made accessible to the public to foster
deeper investigation and applications. However, when it comes to training
datasets for these LLMs, especially the recent state-of-the-art models, they
are often not fully disclosed. Creating training data for high-performing LLMs
involves extensive cleaning and deduplication to ensure the necessary level of
quality. The lack of transparency for training data has thus hampered research
on attributing and addressing hallucination and bias issues in LLMs, hindering
replication efforts and further advancements in the community. These challenges
become even more pronounced in multilingual learning scenarios, where the
available multilingual text datasets are often inadequately collected and
cleaned. Consequently, there is a lack of open-source and readily usable
dataset to effectively train LLMs in multiple languages. To overcome this
issue, we present CulturaX, a substantial multilingual dataset with 6.3
trillion tokens in 167 languages, tailored for LLM development. Our dataset
undergoes meticulous cleaning and deduplication through a rigorous pipeline of
multiple stages to accomplish the best quality for model training, including
language identification, URL-based filtering, metric-based cleaning, document
refinement, and data deduplication. CulturaX is fully released to the public in
HuggingFace to facilitate research and advancements in multilingual LLMs:
https://huggingface.co/datasets/uonlp/CulturaX.