Corpus chinois OpenCSG : une série de jeux de données chinois de haute qualité pour l'entraînement de LLM.

OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training

January 14, 2025
Auteurs: Yijiong Yu, Ziyun Dai, Zekun Wang, Wei Wang, Ran Chen, Ji Pei
cs.AI

Résumé

Les grands modèles de langage (LLM) ont démontré des capacités remarquables, mais leur succès dépend fortement de la qualité des corpus de pré-entraînement. Pour les LLM chinois, la rareté des ensembles de données chinois de haute qualité constitue un défi majeur, limitant souvent leurs performances. Pour résoudre ce problème, nous proposons le Corpus Chinois OpenCSG, une série d'ensembles de données de haute qualité spécifiquement conçus pour le pré-entraînement, le post-entraînement et le fine-tuning des LLM. Ce corpus comprend Fineweb-edu-chinois, Fineweb-edu-chinois-v2, Cosmopedia-chinois et Smoltalk-chinois, chacun présentant des caractéristiques distinctes : les ensembles de données Fineweb-edu se concentrent sur un contenu filtré et de haute qualité provenant de diverses sources web chinoises ; Cosmopedia-chinois fournit des données synthétiques de style manuel scolaire pour un entraînement intensif en connaissances ; et Smoltalk-chinois met l'accent sur des données de style chat stylistique et varié. Le Corpus Chinois OpenCSG se distingue par la qualité de son texte, sa couverture diversifiée à travers différents domaines, et ses processus de curation de données évolutifs et reproductibles. De plus, nous avons mené des analyses expérimentales approfondies, y compris des évaluations sur des modèles à paramètres réduits, qui ont démontré des améliorations significatives des performances dans des tâches telles que C-Eval, mettant en avant l'efficacité du corpus pour l'entraînement des LLM chinois.
English
Large language models (LLMs) have demonstrated remarkable capabilities, but their success heavily relies on the quality of pretraining corpora. For Chinese LLMs, the scarcity of high-quality Chinese datasets presents a significant challenge, often limiting their performance. To address this issue, we propose the OpenCSG Chinese Corpus, a series of high-quality datasets specifically designed for LLM pretraining, post-training, and fine-tuning. This corpus includes Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese, and Smoltalk-chinese, each with distinct characteristics: Fineweb-edu datasets focus on filtered, high-quality content derived from diverse Chinese web sources; Cosmopedia-chinese provides synthetic, textbook-style data for knowledge-intensive training; and Smoltalk-chinese emphasizes stylistic and diverse chat-format data. The OpenCSG Chinese Corpus is characterized by its high-quality text, diverse coverage across domains, and scalable, reproducible data curation processes. Additionally, we conducted extensive experimental analyses, including evaluations on smaller parameter models, which demonstrated significant performance improvements in tasks such as C-Eval, showcasing the effectiveness of the corpus for training Chinese LLMs.

Summary

AI-Generated Summary

PDF82January 15, 2025