Corpus chinois OpenCSG : une série de jeux de données chinois de haute qualité pour l'entraînement de LLM.
OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training
January 14, 2025
Auteurs: Yijiong Yu, Ziyun Dai, Zekun Wang, Wei Wang, Ran Chen, Ji Pei
cs.AI
Résumé
Les grands modèles de langage (LLM) ont démontré des capacités remarquables, mais leur succès dépend fortement de la qualité des corpus de pré-entraînement. Pour les LLM chinois, la rareté des ensembles de données chinois de haute qualité constitue un défi majeur, limitant souvent leurs performances. Pour résoudre ce problème, nous proposons le Corpus Chinois OpenCSG, une série d'ensembles de données de haute qualité spécifiquement conçus pour le pré-entraînement, le post-entraînement et le fine-tuning des LLM. Ce corpus comprend Fineweb-edu-chinois, Fineweb-edu-chinois-v2, Cosmopedia-chinois et Smoltalk-chinois, chacun présentant des caractéristiques distinctes : les ensembles de données Fineweb-edu se concentrent sur un contenu filtré et de haute qualité provenant de diverses sources web chinoises ; Cosmopedia-chinois fournit des données synthétiques de style manuel scolaire pour un entraînement intensif en connaissances ; et Smoltalk-chinois met l'accent sur des données de style chat stylistique et varié. Le Corpus Chinois OpenCSG se distingue par la qualité de son texte, sa couverture diversifiée à travers différents domaines, et ses processus de curation de données évolutifs et reproductibles. De plus, nous avons mené des analyses expérimentales approfondies, y compris des évaluations sur des modèles à paramètres réduits, qui ont démontré des améliorations significatives des performances dans des tâches telles que C-Eval, mettant en avant l'efficacité du corpus pour l'entraînement des LLM chinois.
English
Large language models (LLMs) have demonstrated remarkable capabilities, but
their success heavily relies on the quality of pretraining corpora. For Chinese
LLMs, the scarcity of high-quality Chinese datasets presents a significant
challenge, often limiting their performance. To address this issue, we propose
the OpenCSG Chinese Corpus, a series of high-quality datasets specifically
designed for LLM pretraining, post-training, and fine-tuning. This corpus
includes Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese, and
Smoltalk-chinese, each with distinct characteristics: Fineweb-edu datasets
focus on filtered, high-quality content derived from diverse Chinese web
sources; Cosmopedia-chinese provides synthetic, textbook-style data for
knowledge-intensive training; and Smoltalk-chinese emphasizes stylistic and
diverse chat-format data. The OpenCSG Chinese Corpus is characterized by its
high-quality text, diverse coverage across domains, and scalable, reproducible
data curation processes. Additionally, we conducted extensive experimental
analyses, including evaluations on smaller parameter models, which demonstrated
significant performance improvements in tasks such as C-Eval, showcasing the
effectiveness of the corpus for training Chinese LLMs.Summary
AI-Generated Summary