ChatPaper.aiChatPaper

CCI3.0-HQ: un conjunto de datos chino a gran escala de alta calidad diseñado para pre-entrenar grandes modelos de lenguaje.

CCI3.0-HQ: a large-scale Chinese dataset of high quality designed for pre-training large language models

October 24, 2024
Autores: Liangdong Wang, Bo-Wen Zhang, Chengwei Wu, Hanyu Zhao, Xiaofeng Shi, Shuhao Gu, Jijie Li, Quanyue Ma, TengFei Pan, Guang Liu
cs.AI

Resumen

Presentamos CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), un subconjunto de alta calidad de 500GB del Corpora Chino de Internet 3.0 (CCI3.0) (https://huggingface.co/datasets/BAAI/CCI3-Data), desarrollado utilizando un novedoso pipeline híbrido de filtrado en dos etapas que mejora significativamente la calidad de los datos. Para evaluar su efectividad, entrenamos un modelo de 0.5B parámetros desde cero en 100B tokens a través de varios conjuntos de datos, logrando un rendimiento superior en 10 pruebas en un escenario de cero disparos en comparación con CCI3.0, SkyPile y WanjuanV1. El proceso de filtrado de alta calidad destila eficazmente las capacidades del modelo Qwen2-72B-instruct en un modelo compacto de 0.5B, logrando puntajes F1 óptimos para la clasificación de datos web chinos. Creemos que este conjunto de datos de acceso abierto facilitará un acceso más amplio a modelos de lenguaje de alta calidad.
English
We present CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), a high-quality 500GB subset of the Chinese Corpora Internet 3.0 (CCI3.0)(https://huggingface.co/datasets/BAAI/CCI3-Data), developed using a novel two-stage hybrid filtering pipeline that significantly enhances data quality. To evaluate its effectiveness, we trained a 0.5B parameter model from scratch on 100B tokens across various datasets, achieving superior performance on 10 benchmarks in a zero-shot setting compared to CCI3.0, SkyPile, and WanjuanV1. The high-quality filtering process effectively distills the capabilities of the Qwen2-72B-instruct model into a compact 0.5B model, attaining optimal F1 scores for Chinese web data classification. We believe this open-access dataset will facilitate broader access to high-quality language models.

Summary

AI-Generated Summary

PDF113November 16, 2024