Corpus Chino OpenCSG: Una Serie de Conjuntos de Datos Chinos de Alta Calidad para el Entrenamiento de LLM
OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training
January 14, 2025
Autores: Yijiong Yu, Ziyun Dai, Zekun Wang, Wei Wang, Ran Chen, Ji Pei
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs) han demostrado capacidades notables, pero su éxito depende en gran medida de la calidad de los corpus de preentrenamiento. Para los LLMs chinos, la escasez de conjuntos de datos chinos de alta calidad representa un desafío significativo, limitando a menudo su rendimiento. Para abordar este problema, proponemos el Corpus Chino OpenCSG, una serie de conjuntos de datos de alta calidad diseñados específicamente para el preentrenamiento, post-entrenamiento y ajuste fino de LLMs. Este corpus incluye Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese y Smoltalk-chinese, cada uno con características distintas: los conjuntos de datos Fineweb-edu se centran en contenido filtrado de alta calidad derivado de diversas fuentes web chinas; Cosmopedia-chinese proporciona datos sintéticos de estilo de libro de texto para un entrenamiento intensivo en conocimiento; y Smoltalk-chinese enfatiza datos de estilo de chat variados y estilísticos. El Corpus Chino OpenCSG se caracteriza por su texto de alta calidad, cobertura diversa en diferentes dominios y procesos de curación de datos escalables y reproducibles. Además, realizamos extensos análisis experimentales, incluyendo evaluaciones en modelos con parámetros más pequeños, que demostraron mejoras significativas en el rendimiento en tareas como C-Eval, mostrando la efectividad del corpus para el entrenamiento de LLMs chinos.
English
Large language models (LLMs) have demonstrated remarkable capabilities, but
their success heavily relies on the quality of pretraining corpora. For Chinese
LLMs, the scarcity of high-quality Chinese datasets presents a significant
challenge, often limiting their performance. To address this issue, we propose
the OpenCSG Chinese Corpus, a series of high-quality datasets specifically
designed for LLM pretraining, post-training, and fine-tuning. This corpus
includes Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese, and
Smoltalk-chinese, each with distinct characteristics: Fineweb-edu datasets
focus on filtered, high-quality content derived from diverse Chinese web
sources; Cosmopedia-chinese provides synthetic, textbook-style data for
knowledge-intensive training; and Smoltalk-chinese emphasizes stylistic and
diverse chat-format data. The OpenCSG Chinese Corpus is characterized by its
high-quality text, diverse coverage across domains, and scalable, reproducible
data curation processes. Additionally, we conducted extensive experimental
analyses, including evaluations on smaller parameter models, which demonstrated
significant performance improvements in tasks such as C-Eval, showcasing the
effectiveness of the corpus for training Chinese LLMs.Summary
AI-Generated Summary