ChatPaper.aiChatPaper

Skywork: Ein offeneres zweisprachiges Grundmodell

Skywork: A More Open Bilingual Foundation Model

October 30, 2023
Autoren: Tianwen Wei, Liang Zhao, Lichang Zhang, Bo Zhu, Lijie Wang, Haihua Yang, Biye Li, Cheng Cheng, Weiwei Lü, Rui Hu, Chenxia Li, Liu Yang, Xilin Luo, Xuejie Wu, Lunan Liu, Wenjun Cheng, Peng Cheng, Jianhao Zhang, Xiaoyu Zhang, Lei Lin, Xiaokun Wang, Yutuan Ma, Chuanhai Dong, Yanqi Sun, Yifu Chen, Yongyi Peng, Xiaojuan Liang, Shuicheng Yan, Han Fang, Yahui Zhou
cs.AI

Zusammenfassung

In diesem technischen Bericht stellen wir Skywork-13B vor, eine Familie von großen Sprachmodellen (LLMs), die auf einem Korpus von über 3,2 Billionen Tokens trainiert wurden, die sowohl aus englischen als auch chinesischen Texten stammen. Dieses bilinguale Basismodell ist das bisher am umfangreichsten trainierte und öffentlich veröffentlichte LLM vergleichbarer Größe. Wir führen eine zweistufige Trainingsmethodik ein, die einen segmentierten Korpus nutzt und zunächst allgemeines Training und anschließend domänenspezifisches Vertiefungstraining vorsieht. Wir zeigen, dass unser Modell nicht nur bei gängigen Benchmarks hervorragend abschneidet, sondern auch Spitzenleistungen im chinesischen Sprachmodellieren über verschiedene Domänen hinweg erzielt. Darüber hinaus schlagen wir eine neuartige Methode zur Leckage-Erkennung vor und demonstrieren, dass die Kontamination von Testdaten ein dringendes Problem darstellt, das weitere Untersuchungen durch die LLM-Community erfordert. Um zukünftige Forschung zu fördern, veröffentlichen wir Skywork-13B zusammen mit Checkpoints, die während der Zwischenstufen des Trainingsprozesses erstellt wurden. Wir stellen auch einen Teil unseres SkyPile-Korpus zur Verfügung, einer Sammlung von über 150 Milliarden Tokens an Webtext, der bisher größte hochwertige offene chinesische Vor-Trainings-Korpus. Wir hoffen, dass Skywork-13B und unser offener Korpus als wertvolle Open-Source-Ressource dienen werden, um den Zugang zu hochwertigen LLMs zu demokratisieren.
English
In this technical report, we present Skywork-13B, a family of large language models (LLMs) trained on a corpus of over 3.2 trillion tokens drawn from both English and Chinese texts. This bilingual foundation model is the most extensively trained and openly published LLMs of comparable size to date. We introduce a two-stage training methodology using a segmented corpus, targeting general purpose training and then domain-specific enhancement training, respectively. We show that our model not only excels on popular benchmarks, but also achieves state of the art performance in Chinese language modeling on diverse domains. Furthermore, we propose a novel leakage detection method, demonstrating that test data contamination is a pressing issue warranting further investigation by the LLM community. To spur future research, we release Skywork-13B along with checkpoints obtained during intermediate stages of the training process. We are also releasing part of our SkyPile corpus, a collection of over 150 billion tokens of web text, which is the largest high quality open Chinese pre-training corpus to date. We hope Skywork-13B and our open corpus will serve as a valuable open-source resource to democratize access to high-quality LLMs.
PDF61December 15, 2024