CulturaX: Очищенный, масштабный и многоязычный набор данных для больших языковых моделей на 167 языках
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages
September 17, 2023
Авторы: Thuat Nguyen, Chien Van Nguyen, Viet Dac Lai, Hieu Man, Nghia Trung Ngo, Franck Dernoncourt, Ryan A. Rossi, Thien Huu Nguyen
cs.AI
Аннотация
Основными факторами, способствующими развитию крупных языковых моделей (LLM) с впечатляющими способностями к обучению, являются их огромные размеры и обширные наборы обучающих данных. Вместе с прогрессом в области обработки естественного языка LLM часто становятся доступными для широкой публики, чтобы стимулировать более глубокие исследования и применение. Однако, когда речь заходит о наборах обучающих данных для этих LLM, особенно для современных моделей высшего уровня, они часто не раскрываются полностью. Создание обучающих данных для высокопроизводительных LLM требует тщательной очистки и удаления дубликатов, чтобы обеспечить необходимый уровень качества. Отсутствие прозрачности в отношении обучающих данных затрудняет исследования, направленные на выявление и устранение проблем с галлюцинациями и предвзятостью в LLM, что препятствует воспроизведению результатов и дальнейшему прогрессу в сообществе. Эти проблемы становятся еще более заметными в сценариях многоязычного обучения, где доступные наборы многоязычных текстов часто недостаточно собраны и очищены. В результате отсутствуют открытые и готовые к использованию наборы данных для эффективного обучения LLM на нескольких языках. Чтобы преодолеть эту проблему, мы представляем CulturaX — обширный многоязычный набор данных, содержащий 6,3 триллиона токенов на 167 языках, специально разработанный для развития LLM. Наш набор данных проходит тщательную очистку и удаление дубликатов через многоэтапный строгий процесс, включающий идентификацию языка, фильтрацию на основе URL, очистку на основе метрик, уточнение документов и удаление дубликатов данных. CulturaX полностью опубликован на платформе HuggingFace для содействия исследованиям и прогрессу в области многоязычных LLM: https://huggingface.co/datasets/uonlp/CulturaX.
English
The driving factors behind the development of large language models (LLMs)
with impressive learning capabilities are their colossal model sizes and
extensive training datasets. Along with the progress in natural language
processing, LLMs have been frequently made accessible to the public to foster
deeper investigation and applications. However, when it comes to training
datasets for these LLMs, especially the recent state-of-the-art models, they
are often not fully disclosed. Creating training data for high-performing LLMs
involves extensive cleaning and deduplication to ensure the necessary level of
quality. The lack of transparency for training data has thus hampered research
on attributing and addressing hallucination and bias issues in LLMs, hindering
replication efforts and further advancements in the community. These challenges
become even more pronounced in multilingual learning scenarios, where the
available multilingual text datasets are often inadequately collected and
cleaned. Consequently, there is a lack of open-source and readily usable
dataset to effectively train LLMs in multiple languages. To overcome this
issue, we present CulturaX, a substantial multilingual dataset with 6.3
trillion tokens in 167 languages, tailored for LLM development. Our dataset
undergoes meticulous cleaning and deduplication through a rigorous pipeline of
multiple stages to accomplish the best quality for model training, including
language identification, URL-based filtering, metric-based cleaning, document
refinement, and data deduplication. CulturaX is fully released to the public in
HuggingFace to facilitate research and advancements in multilingual LLMs:
https://huggingface.co/datasets/uonlp/CulturaX.