CulturaX: Een Gereinigde, Enorme en Meertalige Dataset voor Grote Taalmodellen in 167 Talen
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages
September 17, 2023
Auteurs: Thuat Nguyen, Chien Van Nguyen, Viet Dac Lai, Hieu Man, Nghia Trung Ngo, Franck Dernoncourt, Ryan A. Rossi, Thien Huu Nguyen
cs.AI
Samenvatting
De drijvende factoren achter de ontwikkeling van grote taalmodelen (LLMs) met indrukwekkende leerprestaties zijn hun enorme modelgroottes en uitgebreide trainingsdatasets. Samen met de vooruitgang in natuurlijke taalverwerking zijn LLMs vaak toegankelijk gemaakt voor het publiek om diepgaand onderzoek en toepassingen te bevorderen. Wanneer het echter gaat om trainingsdatasets voor deze LLMs, met name de recente state-of-the-art modellen, worden deze vaak niet volledig vrijgegeven. Het creëren van trainingsdata voor hoogpresterende LLMs vereist uitgebreide reiniging en deduplicatie om het benodigde kwaliteitsniveau te waarborgen. Het gebrek aan transparantie rond trainingsdata heeft daardoor onderzoek naar het toeschrijven en aanpakken van hallucinatie- en biasproblemen in LLMs belemmerd, wat replicatiepogingen en verdere vooruitgang in de gemeenschap in de weg staat. Deze uitdagingen worden nog duidelijker in meertalige leeromgevingen, waar de beschikbare meertalige tekstdatasets vaak onvoldoende zijn verzameld en gereinigd. Hierdoor ontbreekt het aan open-source en direct bruikbare datasets om LLMs effectief in meerdere talen te trainen. Om dit probleem te overwinnen, presenteren we CulturaX, een omvangrijke meertalige dataset met 6,3 biljoen tokens in 167 talen, speciaal ontwikkeld voor LLM-ontwikkeling. Onze dataset ondergaat een zorgvuldige reiniging en deduplicatie via een rigoureus pijplijnproces met meerdere fasen om de beste kwaliteit voor modeltraining te bereiken, waaronder taalidentificatie, URL-gebaseerde filtering, metriek-gebaseerde reiniging, documentverfijning en datadeduplicatie. CulturaX wordt volledig vrijgegeven aan het publiek op HuggingFace om onderzoek en vooruitgang in meertalige LLMs te faciliteren: https://huggingface.co/datasets/uonlp/CulturaX.
English
The driving factors behind the development of large language models (LLMs)
with impressive learning capabilities are their colossal model sizes and
extensive training datasets. Along with the progress in natural language
processing, LLMs have been frequently made accessible to the public to foster
deeper investigation and applications. However, when it comes to training
datasets for these LLMs, especially the recent state-of-the-art models, they
are often not fully disclosed. Creating training data for high-performing LLMs
involves extensive cleaning and deduplication to ensure the necessary level of
quality. The lack of transparency for training data has thus hampered research
on attributing and addressing hallucination and bias issues in LLMs, hindering
replication efforts and further advancements in the community. These challenges
become even more pronounced in multilingual learning scenarios, where the
available multilingual text datasets are often inadequately collected and
cleaned. Consequently, there is a lack of open-source and readily usable
dataset to effectively train LLMs in multiple languages. To overcome this
issue, we present CulturaX, a substantial multilingual dataset with 6.3
trillion tokens in 167 languages, tailored for LLM development. Our dataset
undergoes meticulous cleaning and deduplication through a rigorous pipeline of
multiple stages to accomplish the best quality for model training, including
language identification, URL-based filtering, metric-based cleaning, document
refinement, and data deduplication. CulturaX is fully released to the public in
HuggingFace to facilitate research and advancements in multilingual LLMs:
https://huggingface.co/datasets/uonlp/CulturaX.