CCI3.0-HQ: um conjunto de dados chinês em grande escala de alta qualidade projetado para pré-treinamento de grandes modelos de linguagem.

Resumo

Apresentamos o CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), um subconjunto de alta qualidade de 500GB do Corpora Chinês da Internet 3.0 (CCI3.0) (https://huggingface.co/datasets/BAAI/CCI3-Data), desenvolvido utilizando um novo pipeline híbrido de filtragem em duas etapas que aprimora significativamente a qualidade dos dados. Para avaliar sua eficácia, treinamos um modelo com 0.5B de parâmetros a partir do zero em 100B de tokens em vários conjuntos de dados, alcançando um desempenho superior em 10 benchmarks em uma configuração de zero-shot em comparação com CCI3.0, SkyPile e WanjuanV1. O processo de filtragem de alta qualidade destila efetivamente as capacidades do modelo Qwen2-72B-instruct em um modelo compacto de 0.5B, obtendo pontuações F1 ótimas para a classificação de dados da web chinesa. Acreditamos que este conjunto de dados de acesso aberto facilitará um acesso mais amplo a modelos de linguagem de alta qualidade.

English

We present CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), a high-quality 500GB subset of the Chinese Corpora Internet 3.0 (CCI3.0)(https://huggingface.co/datasets/BAAI/CCI3-Data), developed using a novel two-stage hybrid filtering pipeline that significantly enhances data quality. To evaluate its effectiveness, we trained a 0.5B parameter model from scratch on 100B tokens across various datasets, achieving superior performance on 10 benchmarks in a zero-shot setting compared to CCI3.0, SkyPile, and WanjuanV1. The high-quality filtering process effectively distills the capabilities of the Qwen2-72B-instruct model into a compact 0.5B model, attaining optimal F1 scores for Chinese web data classification. We believe this open-access dataset will facilitate broader access to high-quality language models.

CCI3.0-HQ: um conjunto de dados chinês em grande escala de alta qualidade projetado para pré-treinamento de grandes modelos de linguagem.

CCI3.0-HQ: a large-scale Chinese dataset of high quality designed for pre-training large language models

Resumo

Support