ChatPaper.aiChatPaper

Skywork: Een Open Bilingual Fundamenteel Model

Skywork: A More Open Bilingual Foundation Model

October 30, 2023
Auteurs: Tianwen Wei, Liang Zhao, Lichang Zhang, Bo Zhu, Lijie Wang, Haihua Yang, Biye Li, Cheng Cheng, Weiwei Lü, Rui Hu, Chenxia Li, Liu Yang, Xilin Luo, Xuejie Wu, Lunan Liu, Wenjun Cheng, Peng Cheng, Jianhao Zhang, Xiaoyu Zhang, Lei Lin, Xiaokun Wang, Yutuan Ma, Chuanhai Dong, Yanqi Sun, Yifu Chen, Yongyi Peng, Xiaojuan Liang, Shuicheng Yan, Han Fang, Yahui Zhou
cs.AI

Samenvatting

In dit technische rapport presenteren we Skywork-13B, een familie van grote taalmodelen (LLMs) getraind op een corpus van meer dan 3,2 biljoen tokens afkomstig uit zowel Engelse als Chinese teksten. Dit tweetalige basismodel is het meest uitgebreid getrainde en openbaar gepubliceerde LLM van vergelijkbare omvang tot op heden. We introduceren een tweefasige trainingsmethodologie met behulp van een gesegmenteerd corpus, gericht op algemene training en vervolgens domeinspecifieke verbeteringstraining. We tonen aan dat ons model niet alleen uitblinkt op populaire benchmarks, maar ook state-of-the-art prestaties behaalt in Chinese taalmodeling op diverse domeinen. Bovendien stellen we een nieuwe methode voor om lekken te detecteren, waarbij we aantonen dat testdataverontreiniging een urgent probleem is dat verder onderzoek door de LLM-gemeenschap vereist. Om toekomstig onderzoek te stimuleren, geven we Skywork-13B vrij, samen met checkpoints die zijn verkregen tijdens tussenliggende fasen van het trainingsproces. We geven ook een deel van ons SkyPile-corpus vrij, een verzameling van meer dan 150 miljard tokens webtekst, wat het grootste hoogwaardige open Chinese pre-trainingscorpus tot nu toe is. We hopen dat Skywork-13B en ons open corpus zullen dienen als een waardevolle open-source bron om toegang tot hoogwaardige LLMs te democratiseren.
English
In this technical report, we present Skywork-13B, a family of large language models (LLMs) trained on a corpus of over 3.2 trillion tokens drawn from both English and Chinese texts. This bilingual foundation model is the most extensively trained and openly published LLMs of comparable size to date. We introduce a two-stage training methodology using a segmented corpus, targeting general purpose training and then domain-specific enhancement training, respectively. We show that our model not only excels on popular benchmarks, but also achieves state of the art performance in Chinese language modeling on diverse domains. Furthermore, we propose a novel leakage detection method, demonstrating that test data contamination is a pressing issue warranting further investigation by the LLM community. To spur future research, we release Skywork-13B along with checkpoints obtained during intermediate stages of the training process. We are also releasing part of our SkyPile corpus, a collection of over 150 billion tokens of web text, which is the largest high quality open Chinese pre-training corpus to date. We hope Skywork-13B and our open corpus will serve as a valuable open-source resource to democratize access to high-quality LLMs.
PDF61February 8, 2026