CulturaX: Un dataset pulito, vasto e multilingue per modelli linguistici di grandi dimensioni in 167 lingue

Abstract

I fattori trainanti dietro lo sviluppo di modelli linguistici di grandi dimensioni (LLM) con capacità di apprendimento impressionanti sono le loro dimensioni colossali e i vasti dataset di addestramento. Parallelamente ai progressi nell'elaborazione del linguaggio naturale, gli LLM sono stati spesso resi accessibili al pubblico per favorire indagini più approfondite e applicazioni. Tuttavia, quando si tratta dei dataset di addestramento per questi LLM, in particolare per i modelli più recenti all'avanguardia, spesso non vengono completamente divulgati. La creazione di dati di addestramento per LLM ad alte prestazioni richiede un'ampia pulizia e deduplicazione per garantire il livello di qualità necessario. La mancanza di trasparenza sui dati di addestramento ha quindi ostacolato la ricerca sull'attribuzione e la risoluzione dei problemi di allucinazione e bias negli LLM, impedendo gli sforzi di replicazione e ulteriori progressi nella comunità. Queste sfide diventano ancora più pronunciate negli scenari di apprendimento multilingue, dove i dataset di testo multilingue disponibili sono spesso raccolti e puliti in modo inadeguato. Di conseguenza, manca un dataset open source e immediatamente utilizzabile per addestrare efficacemente gli LLM in più lingue. Per superare questo problema, presentiamo CulturaX, un sostanziale dataset multilingue con 6,3 trilioni di token in 167 lingue, progettato per lo sviluppo di LLM. Il nostro dataset subisce una meticolosa pulizia e deduplicazione attraverso una rigorosa pipeline a più stadi per raggiungere la migliore qualità per l'addestramento dei modelli, inclusa l'identificazione della lingua, il filtraggio basato su URL, la pulizia basata su metriche, il perfezionamento dei documenti e la deduplicazione dei dati. CulturaX è completamente rilasciato al pubblico su HuggingFace per facilitare la ricerca e i progressi negli LLM multilingue: https://huggingface.co/datasets/uonlp/CulturaX.

English

The driving factors behind the development of large language models (LLMs) with impressive learning capabilities are their colossal model sizes and extensive training datasets. Along with the progress in natural language processing, LLMs have been frequently made accessible to the public to foster deeper investigation and applications. However, when it comes to training datasets for these LLMs, especially the recent state-of-the-art models, they are often not fully disclosed. Creating training data for high-performing LLMs involves extensive cleaning and deduplication to ensure the necessary level of quality. The lack of transparency for training data has thus hampered research on attributing and addressing hallucination and bias issues in LLMs, hindering replication efforts and further advancements in the community. These challenges become even more pronounced in multilingual learning scenarios, where the available multilingual text datasets are often inadequately collected and cleaned. Consequently, there is a lack of open-source and readily usable dataset to effectively train LLMs in multiple languages. To overcome this issue, we present CulturaX, a substantial multilingual dataset with 6.3 trillion tokens in 167 languages, tailored for LLM development. Our dataset undergoes meticulous cleaning and deduplication through a rigorous pipeline of multiple stages to accomplish the best quality for model training, including language identification, URL-based filtering, metric-based cleaning, document refinement, and data deduplication. CulturaX is fully released to the public in HuggingFace to facilitate research and advancements in multilingual LLMs: https://huggingface.co/datasets/uonlp/CulturaX.

CulturaX: Un dataset pulito, vasto e multilingue per modelli linguistici di grandi dimensioni in 167 lingue

CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages

Abstract

Support