CCI3.0-HQ: крупномасштабный китайский набор данных высокого качества, разработанный для предварительного обучения больших языковых моделей

Аннотация

Мы представляем CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), высококачественный поднабор данных объемом 500 ГБ из Китайских корпусов Интернета 3.0 (CCI3.0) (https://huggingface.co/datasets/BAAI/CCI3-Data), разработанный с использованием новой гибридной двухэтапной системы фильтрации, которая значительно повышает качество данных. Для оценки его эффективности мы обучили модель с 0.5 миллиарда параметров с нуля на 100 миллиардах токенов по различным наборам данных, достигнув превосходных результатов на 10 бенчмарках в условиях нулевой настройки по сравнению с CCI3.0, SkyPile и WanjuanV1. Процесс фильтрации высокого качества эффективно концентрирует возможности модели Qwen2-72B-instruct в компактную модель с 0.5 миллиарда параметров, достигая оптимальных значений F1 для классификации китайских веб-данных. Мы считаем, что этот набор данных с открытым доступом способствует более широкому доступу к высококачественным языковым моделям.

English

We present CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), a high-quality 500GB subset of the Chinese Corpora Internet 3.0 (CCI3.0)(https://huggingface.co/datasets/BAAI/CCI3-Data), developed using a novel two-stage hybrid filtering pipeline that significantly enhances data quality. To evaluate its effectiveness, we trained a 0.5B parameter model from scratch on 100B tokens across various datasets, achieving superior performance on 10 benchmarks in a zero-shot setting compared to CCI3.0, SkyPile, and WanjuanV1. The high-quality filtering process effectively distills the capabilities of the Qwen2-72B-instruct model into a compact 0.5B model, attaining optimal F1 scores for Chinese web data classification. We believe this open-access dataset will facilitate broader access to high-quality language models.

CCI3.0-HQ: крупномасштабный китайский набор данных высокого качества, разработанный для предварительного обучения больших языковых моделей

CCI3.0-HQ: a large-scale Chinese dataset of high quality designed for pre-training large language models

Аннотация

Support