CulturaX: Ein bereinigter, umfangreicher und mehrsprachiger Datensatz für große Sprachmodelle in 167 Sprachen
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages
September 17, 2023
Autoren: Thuat Nguyen, Chien Van Nguyen, Viet Dac Lai, Hieu Man, Nghia Trung Ngo, Franck Dernoncourt, Ryan A. Rossi, Thien Huu Nguyen
cs.AI
Zusammenfassung
Die treibenden Faktoren hinter der Entwicklung von großen Sprachmodellen (LLMs) mit beeindruckenden Lernfähigkeiten sind ihre enormen Modellgrößen und umfangreichen Trainingsdatensätze. Parallel zum Fortschritt in der natürlichen Sprachverarbeitung wurden LLMs häufig der Öffentlichkeit zugänglich gemacht, um tiefgehende Untersuchungen und Anwendungen zu fördern. Wenn es jedoch um die Trainingsdatensätze für diese LLMs geht, insbesondere für die neuesten State-of-the-Art-Modelle, werden diese oft nicht vollständig offengelegt. Die Erstellung von Trainingsdaten für hochleistungsfähige LLMs erfordert umfangreiche Bereinigungs- und Deduplizierungsprozesse, um die notwendige Qualität sicherzustellen. Der Mangel an Transparenz bei den Trainingsdaten hat somit die Forschung zur Zuschreibung und Behebung von Halluzinations- und Verzerrungsproblemen in LLMs behindert, was die Reproduktionsbemühungen und weiteren Fortschritte in der Gemeinschaft erschwert. Diese Herausforderungen werden in mehrsprachigen Lernszenarien noch deutlicher, wo die verfügbaren mehrsprachigen Textdatensätze oft unzureichend gesammelt und bereinigt sind. Folglich mangelt es an Open-Source-Datensätzen, die sofort einsatzbereit sind, um LLMs effektiv in mehreren Sprachen zu trainieren. Um dieses Problem zu überwinden, präsentieren wir CulturaX, einen umfangreichen mehrsprachigen Datensatz mit 6,3 Billionen Tokens in 167 Sprachen, der speziell für die Entwicklung von LLMs konzipiert ist. Unser Datensatz durchläuft eine sorgfältige Bereinigung und Deduplizierung durch eine rigorose Pipeline mit mehreren Stufen, um die beste Qualität für das Modelltraining zu erreichen, einschließlich Sprachidentifikation, URL-basierter Filterung, metrikbasierter Bereinigung, Dokumentenverfeinerung und Datendeduplizierung. CulturaX wird vollständig auf HuggingFace der Öffentlichkeit zugänglich gemacht, um die Forschung und Fortschritte in mehrsprachigen LLMs zu fördern: https://huggingface.co/datasets/uonlp/CulturaX.
English
The driving factors behind the development of large language models (LLMs)
with impressive learning capabilities are their colossal model sizes and
extensive training datasets. Along with the progress in natural language
processing, LLMs have been frequently made accessible to the public to foster
deeper investigation and applications. However, when it comes to training
datasets for these LLMs, especially the recent state-of-the-art models, they
are often not fully disclosed. Creating training data for high-performing LLMs
involves extensive cleaning and deduplication to ensure the necessary level of
quality. The lack of transparency for training data has thus hampered research
on attributing and addressing hallucination and bias issues in LLMs, hindering
replication efforts and further advancements in the community. These challenges
become even more pronounced in multilingual learning scenarios, where the
available multilingual text datasets are often inadequately collected and
cleaned. Consequently, there is a lack of open-source and readily usable
dataset to effectively train LLMs in multiple languages. To overcome this
issue, we present CulturaX, a substantial multilingual dataset with 6.3
trillion tokens in 167 languages, tailored for LLM development. Our dataset
undergoes meticulous cleaning and deduplication through a rigorous pipeline of
multiple stages to accomplish the best quality for model training, including
language identification, URL-based filtering, metric-based cleaning, document
refinement, and data deduplication. CulturaX is fully released to the public in
HuggingFace to facilitate research and advancements in multilingual LLMs:
https://huggingface.co/datasets/uonlp/CulturaX.