CCI3.0-HQ: un conjunto de datos chino a gran escala de alta calidad diseñado para pre-entrenar grandes modelos de lenguaje.

Resumen

Presentamos CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), un subconjunto de alta calidad de 500GB del Corpora Chino de Internet 3.0 (CCI3.0) (https://huggingface.co/datasets/BAAI/CCI3-Data), desarrollado utilizando un novedoso pipeline híbrido de filtrado en dos etapas que mejora significativamente la calidad de los datos. Para evaluar su efectividad, entrenamos un modelo de 0.5B parámetros desde cero en 100B tokens a través de varios conjuntos de datos, logrando un rendimiento superior en 10 pruebas en un escenario de cero disparos en comparación con CCI3.0, SkyPile y WanjuanV1. El proceso de filtrado de alta calidad destila eficazmente las capacidades del modelo Qwen2-72B-instruct en un modelo compacto de 0.5B, logrando puntajes F1 óptimos para la clasificación de datos web chinos. Creemos que este conjunto de datos de acceso abierto facilitará un acceso más amplio a modelos de lenguaje de alta calidad.

English

We present CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), a high-quality 500GB subset of the Chinese Corpora Internet 3.0 (CCI3.0)(https://huggingface.co/datasets/BAAI/CCI3-Data), developed using a novel two-stage hybrid filtering pipeline that significantly enhances data quality. To evaluate its effectiveness, we trained a 0.5B parameter model from scratch on 100B tokens across various datasets, achieving superior performance on 10 benchmarks in a zero-shot setting compared to CCI3.0, SkyPile, and WanjuanV1. The high-quality filtering process effectively distills the capabilities of the Qwen2-72B-instruct model into a compact 0.5B model, attaining optimal F1 scores for Chinese web data classification. We believe this open-access dataset will facilitate broader access to high-quality language models.

CCI3.0-HQ: un conjunto de datos chino a gran escala de alta calidad diseñado para pre-entrenar grandes modelos de lenguaje.

CCI3.0-HQ: a large-scale Chinese dataset of high quality designed for pre-training large language models

Resumen

Support