Corpus Chino OpenCSG: Una Serie de Conjuntos de Datos Chinos de Alta Calidad para el Entrenamiento de LLM

Resumen

Los modelos de lenguaje de gran escala (LLMs) han demostrado capacidades notables, pero su éxito depende en gran medida de la calidad de los corpus de preentrenamiento. Para los LLMs chinos, la escasez de conjuntos de datos chinos de alta calidad representa un desafío significativo, limitando a menudo su rendimiento. Para abordar este problema, proponemos el Corpus Chino OpenCSG, una serie de conjuntos de datos de alta calidad diseñados específicamente para el preentrenamiento, post-entrenamiento y ajuste fino de LLMs. Este corpus incluye Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese y Smoltalk-chinese, cada uno con características distintas: los conjuntos de datos Fineweb-edu se centran en contenido filtrado de alta calidad derivado de diversas fuentes web chinas; Cosmopedia-chinese proporciona datos sintéticos de estilo de libro de texto para un entrenamiento intensivo en conocimiento; y Smoltalk-chinese enfatiza datos de estilo de chat variados y estilísticos. El Corpus Chino OpenCSG se caracteriza por su texto de alta calidad, cobertura diversa en diferentes dominios y procesos de curación de datos escalables y reproducibles. Además, realizamos extensos análisis experimentales, incluyendo evaluaciones en modelos con parámetros más pequeños, que demostraron mejoras significativas en el rendimiento en tareas como C-Eval, mostrando la efectividad del corpus para el entrenamiento de LLMs chinos.

English

Large language models (LLMs) have demonstrated remarkable capabilities, but their success heavily relies on the quality of pretraining corpora. For Chinese LLMs, the scarcity of high-quality Chinese datasets presents a significant challenge, often limiting their performance. To address this issue, we propose the OpenCSG Chinese Corpus, a series of high-quality datasets specifically designed for LLM pretraining, post-training, and fine-tuning. This corpus includes Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese, and Smoltalk-chinese, each with distinct characteristics: Fineweb-edu datasets focus on filtered, high-quality content derived from diverse Chinese web sources; Cosmopedia-chinese provides synthetic, textbook-style data for knowledge-intensive training; and Smoltalk-chinese emphasizes stylistic and diverse chat-format data. The OpenCSG Chinese Corpus is characterized by its high-quality text, diverse coverage across domains, and scalable, reproducible data curation processes. Additionally, we conducted extensive experimental analyses, including evaluations on smaller parameter models, which demonstrated significant performance improvements in tasks such as C-Eval, showcasing the effectiveness of the corpus for training Chinese LLMs.

Corpus Chino OpenCSG: Una Serie de Conjuntos de Datos Chinos de Alta Calidad para el Entrenamiento de LLM

OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training

Resumen

Support