CulturaX: Een Gereinigde, Enorme en Meertalige Dataset voor Grote Taalmodellen in 167 Talen

Samenvatting

De drijvende factoren achter de ontwikkeling van grote taalmodelen (LLMs) met indrukwekkende leerprestaties zijn hun enorme modelgroottes en uitgebreide trainingsdatasets. Samen met de vooruitgang in natuurlijke taalverwerking zijn LLMs vaak toegankelijk gemaakt voor het publiek om diepgaand onderzoek en toepassingen te bevorderen. Wanneer het echter gaat om trainingsdatasets voor deze LLMs, met name de recente state-of-the-art modellen, worden deze vaak niet volledig vrijgegeven. Het creëren van trainingsdata voor hoogpresterende LLMs vereist uitgebreide reiniging en deduplicatie om het benodigde kwaliteitsniveau te waarborgen. Het gebrek aan transparantie rond trainingsdata heeft daardoor onderzoek naar het toeschrijven en aanpakken van hallucinatie- en biasproblemen in LLMs belemmerd, wat replicatiepogingen en verdere vooruitgang in de gemeenschap in de weg staat. Deze uitdagingen worden nog duidelijker in meertalige leeromgevingen, waar de beschikbare meertalige tekstdatasets vaak onvoldoende zijn verzameld en gereinigd. Hierdoor ontbreekt het aan open-source en direct bruikbare datasets om LLMs effectief in meerdere talen te trainen. Om dit probleem te overwinnen, presenteren we CulturaX, een omvangrijke meertalige dataset met 6,3 biljoen tokens in 167 talen, speciaal ontwikkeld voor LLM-ontwikkeling. Onze dataset ondergaat een zorgvuldige reiniging en deduplicatie via een rigoureus pijplijnproces met meerdere fasen om de beste kwaliteit voor modeltraining te bereiken, waaronder taalidentificatie, URL-gebaseerde filtering, metriek-gebaseerde reiniging, documentverfijning en datadeduplicatie. CulturaX wordt volledig vrijgegeven aan het publiek op HuggingFace om onderzoek en vooruitgang in meertalige LLMs te faciliteren: https://huggingface.co/datasets/uonlp/CulturaX.

English

The driving factors behind the development of large language models (LLMs) with impressive learning capabilities are their colossal model sizes and extensive training datasets. Along with the progress in natural language processing, LLMs have been frequently made accessible to the public to foster deeper investigation and applications. However, when it comes to training datasets for these LLMs, especially the recent state-of-the-art models, they are often not fully disclosed. Creating training data for high-performing LLMs involves extensive cleaning and deduplication to ensure the necessary level of quality. The lack of transparency for training data has thus hampered research on attributing and addressing hallucination and bias issues in LLMs, hindering replication efforts and further advancements in the community. These challenges become even more pronounced in multilingual learning scenarios, where the available multilingual text datasets are often inadequately collected and cleaned. Consequently, there is a lack of open-source and readily usable dataset to effectively train LLMs in multiple languages. To overcome this issue, we present CulturaX, a substantial multilingual dataset with 6.3 trillion tokens in 167 languages, tailored for LLM development. Our dataset undergoes meticulous cleaning and deduplication through a rigorous pipeline of multiple stages to accomplish the best quality for model training, including language identification, URL-based filtering, metric-based cleaning, document refinement, and data deduplication. CulturaX is fully released to the public in HuggingFace to facilitate research and advancements in multilingual LLMs: https://huggingface.co/datasets/uonlp/CulturaX.

CulturaX: Een Gereinigde, Enorme en Meertalige Dataset voor Grote Taalmodellen in 167 Talen

CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages

Samenvatting

Support