Skywork: よりオープンなバイリンガル基盤モデル
Skywork: A More Open Bilingual Foundation Model
October 30, 2023
著者: Tianwen Wei, Liang Zhao, Lichang Zhang, Bo Zhu, Lijie Wang, Haihua Yang, Biye Li, Cheng Cheng, Weiwei Lü, Rui Hu, Chenxia Li, Liu Yang, Xilin Luo, Xuejie Wu, Lunan Liu, Wenjun Cheng, Peng Cheng, Jianhao Zhang, Xiaoyu Zhang, Lei Lin, Xiaokun Wang, Yutuan Ma, Chuanhai Dong, Yanqi Sun, Yifu Chen, Yongyi Peng, Xiaojuan Liang, Shuicheng Yan, Han Fang, Yahui Zhou
cs.AI
要旨
本技術レポートでは、英語と中国語のテキストから抽出された3.2兆以上のトークンで訓練された大規模言語モデル(LLM)ファミリーであるSkywork-13Bを紹介します。この二言語基盤モデルは、これまでに公開された同規模のLLMの中で最も広範に訓練されたものです。我々は、セグメント化されたコーパスを使用した二段階の訓練方法を導入し、汎用訓練とドメイン特化の強化訓練をそれぞれ目指しました。本モデルが人気のあるベンチマークで優れた性能を発揮するだけでなく、多様なドメインにおける中国語言語モデリングで最先端の性能を達成することを示します。さらに、テストデータの汚染がLLMコミュニティによるさらなる調査を必要とする緊急の課題であることを示す、新しいリーク検出方法を提案します。今後の研究を促進するため、Skywork-13Bと訓練プロセスの中間段階で得られたチェックポイントを公開します。また、1500億以上のウェブテキストトークンを収集したSkyPileコーパスの一部も公開します。これは、これまでで最大の高品質なオープン中国語事前訓練コーパスです。Skywork-13Bと我々のオープンコーパスが、高品質なLLMへのアクセスを民主化するための貴重なオープンソースリソースとして役立つことを願っています。
English
In this technical report, we present Skywork-13B, a family of large language
models (LLMs) trained on a corpus of over 3.2 trillion tokens drawn from both
English and Chinese texts. This bilingual foundation model is the most
extensively trained and openly published LLMs of comparable size to date. We
introduce a two-stage training methodology using a segmented corpus, targeting
general purpose training and then domain-specific enhancement training,
respectively. We show that our model not only excels on popular benchmarks, but
also achieves state of the art performance in Chinese language modeling
on diverse domains. Furthermore, we propose a novel leakage detection method,
demonstrating that test data contamination is a pressing issue warranting
further investigation by the LLM community. To spur future research, we release
Skywork-13B along with checkpoints obtained during intermediate stages of the
training process. We are also releasing part of our SkyPile corpus, a
collection of over 150 billion tokens of web text, which is the largest high
quality open Chinese pre-training corpus to date. We hope Skywork-13B and our
open corpus will serve as a valuable open-source resource to democratize access
to high-quality LLMs.