CCI3.0-HQ:大規模な中国語データセットであり、大規模言語モデルの事前学習に向けて設計された高品質なデータセットです。
CCI3.0-HQ: a large-scale Chinese dataset of high quality designed for pre-training large language models
October 24, 2024
著者: Liangdong Wang, Bo-Wen Zhang, Chengwei Wu, Hanyu Zhao, Xiaofeng Shi, Shuhao Gu, Jijie Li, Quanyue Ma, TengFei Pan, Guang Liu
cs.AI
要旨
私たちは、新しい2段階ハイブリッドフィルタリングパイプラインを使用して開発された中国語コーパスインターネット3.0(CCI3.0)の高品質な500GBサブセットであるCCI3.0-HQ(https://huggingface.co/datasets/BAAI/CCI3-HQ)を提供します。効果を評価するために、様々なデータセット全体で100Bトークンを用いてゼロショット設定で0.5Bパラメータモデルをゼロからトレーニングし、CCI3.0、SkyPile、WanjuanV1に比べて10のベンチマークで優れたパフォーマンスを達成しました。高品質なフィルタリングプロセスは、Qwen2-72B-instructモデルの機能を効果的に0.5Bモデルに凝縮し、中国語ウェブデータ分類のための最適なF1スコアを達成しました。このオープンアクセスのデータセットは、高品質な言語モデルへのより広範なアクセスを促進すると考えています。
English
We present CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), a
high-quality 500GB subset of the Chinese Corpora Internet 3.0
(CCI3.0)(https://huggingface.co/datasets/BAAI/CCI3-Data), developed using a
novel two-stage hybrid filtering pipeline that significantly enhances data
quality. To evaluate its effectiveness, we trained a 0.5B parameter model from
scratch on 100B tokens across various datasets, achieving superior performance
on 10 benchmarks in a zero-shot setting compared to CCI3.0, SkyPile, and
WanjuanV1. The high-quality filtering process effectively distills the
capabilities of the Qwen2-72B-instruct model into a compact 0.5B model,
attaining optimal F1 scores for Chinese web data classification. We believe
this open-access dataset will facilitate broader access to high-quality
language models.Summary
AI-Generated Summary