OpenCSG Chinese Corpus: Een reeks hoogwaardige Chinese datasets voor LLM-training.
OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training
January 14, 2025
Auteurs: Yijiong Yu, Ziyun Dai, Zekun Wang, Wei Wang, Ran Chen, Ji Pei
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben opmerkelijke mogelijkheden aangetoond, maar hun succes is sterk afhankelijk van de kwaliteit van de pretraining-corpora. Voor Chinese LLM's vormt de schaarste aan hoogwaardige Chinese datasets een aanzienlijke uitdaging, die vaak hun prestaties beperkt. Om dit probleem aan te pakken, stellen we de OpenCSG Chinese Corpus voor, een reeks hoogwaardige datasets die specifiek zijn ontworpen voor LLM-pretraining, post-training en fine-tuning. Deze corpus omvat Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese en Smoltalk-chinese, elk met verschillende kenmerken: de Fineweb-edu-datasets richten zich op gefilterde, hoogwaardige inhoud afkomstig van diverse Chinese webbronnen; Cosmopedia-chinese biedt synthetische, op tekstboeken gebaseerde gegevens voor kennisintensieve training; en Smoltalk-chinese benadrukt stijlvolle en diverse chat-formaat gegevens. De OpenCSG Chinese Corpus wordt gekenmerkt door zijn hoogwaardige tekst, diverse dekking over verschillende domeinen en schaalbare, reproduceerbare gegevenscuratieprocessen. Bovendien hebben we uitgebreide experimentele analyses uitgevoerd, waaronder evaluaties op kleinere parametermodellen, die aanzienlijke prestatieverbeteringen aantoonden in taken zoals C-Eval, waarbij de effectiviteit van de corpus voor het trainen van Chinese LLM's werd aangetoond.
English
Large language models (LLMs) have demonstrated remarkable capabilities, but
their success heavily relies on the quality of pretraining corpora. For Chinese
LLMs, the scarcity of high-quality Chinese datasets presents a significant
challenge, often limiting their performance. To address this issue, we propose
the OpenCSG Chinese Corpus, a series of high-quality datasets specifically
designed for LLM pretraining, post-training, and fine-tuning. This corpus
includes Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese, and
Smoltalk-chinese, each with distinct characteristics: Fineweb-edu datasets
focus on filtered, high-quality content derived from diverse Chinese web
sources; Cosmopedia-chinese provides synthetic, textbook-style data for
knowledge-intensive training; and Smoltalk-chinese emphasizes stylistic and
diverse chat-format data. The OpenCSG Chinese Corpus is characterized by its
high-quality text, diverse coverage across domains, and scalable, reproducible
data curation processes. Additionally, we conducted extensive experimental
analyses, including evaluations on smaller parameter models, which demonstrated
significant performance improvements in tasks such as C-Eval, showcasing the
effectiveness of the corpus for training Chinese LLMs.Summary
AI-Generated Summary