CulturaX : Un ensemble de données nettoyé, massif et multilingue pour les modèles de langage à grande échelle dans 167 langues
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages
September 17, 2023
Auteurs: Thuat Nguyen, Chien Van Nguyen, Viet Dac Lai, Hieu Man, Nghia Trung Ngo, Franck Dernoncourt, Ryan A. Rossi, Thien Huu Nguyen
cs.AI
Résumé
Les facteurs clés derrière le développement des grands modèles de langage (LLMs) dotés de capacités d'apprentissage impressionnantes sont leur taille colossale et leurs vastes ensembles de données d'entraînement. Parallèlement aux progrès en traitement du langage naturel, les LLMs sont fréquemment rendus accessibles au public pour favoriser des recherches approfondies et des applications variées. Cependant, en ce qui concerne les ensembles de données d'entraînement pour ces LLMs, en particulier les modèles récents les plus performants, ils ne sont souvent pas entièrement divulgués. La création de données d'entraînement pour des LLMs performants implique un nettoyage et une déduplication approfondis pour garantir un niveau de qualité nécessaire. Le manque de transparence concernant les données d'entraînement a ainsi entravé la recherche sur l'attribution et la résolution des problèmes d'hallucination et de biais dans les LLMs, freinant les efforts de réplication et les avancées supplémentaires dans la communauté. Ces défis deviennent encore plus prononcés dans les scénarios d'apprentissage multilingue, où les ensembles de données textuelles multilingues disponibles sont souvent insuffisamment collectés et nettoyés. Par conséquent, il manque un ensemble de données open-source et facilement utilisable pour entraîner efficacement les LLMs dans plusieurs langues. Pour surmonter ce problème, nous présentons CulturaX, un ensemble de données multilingue substantiel contenant 6,3 billions de tokens dans 167 langues, conçu pour le développement de LLMs. Notre ensemble de données subit un nettoyage et une déduplication méticuleux à travers un pipeline rigoureux en plusieurs étapes pour atteindre la meilleure qualité pour l'entraînement des modèles, incluant l'identification de la langue, le filtrage basé sur les URL, le nettoyage basé sur des métriques, le raffinement des documents et la déduplication des données. CulturaX est entièrement publié sur HuggingFace pour faciliter la recherche et les avancées dans les LLMs multilingues : https://huggingface.co/datasets/uonlp/CulturaX.
English
The driving factors behind the development of large language models (LLMs)
with impressive learning capabilities are their colossal model sizes and
extensive training datasets. Along with the progress in natural language
processing, LLMs have been frequently made accessible to the public to foster
deeper investigation and applications. However, when it comes to training
datasets for these LLMs, especially the recent state-of-the-art models, they
are often not fully disclosed. Creating training data for high-performing LLMs
involves extensive cleaning and deduplication to ensure the necessary level of
quality. The lack of transparency for training data has thus hampered research
on attributing and addressing hallucination and bias issues in LLMs, hindering
replication efforts and further advancements in the community. These challenges
become even more pronounced in multilingual learning scenarios, where the
available multilingual text datasets are often inadequately collected and
cleaned. Consequently, there is a lack of open-source and readily usable
dataset to effectively train LLMs in multiple languages. To overcome this
issue, we present CulturaX, a substantial multilingual dataset with 6.3
trillion tokens in 167 languages, tailored for LLM development. Our dataset
undergoes meticulous cleaning and deduplication through a rigorous pipeline of
multiple stages to accomplish the best quality for model training, including
language identification, URL-based filtering, metric-based cleaning, document
refinement, and data deduplication. CulturaX is fully released to the public in
HuggingFace to facilitate research and advancements in multilingual LLMs:
https://huggingface.co/datasets/uonlp/CulturaX.