ChatPaper.aiChatPaper

Skywork : Un modèle de fondation bilingue plus ouvert

Skywork: A More Open Bilingual Foundation Model

October 30, 2023
Auteurs: Tianwen Wei, Liang Zhao, Lichang Zhang, Bo Zhu, Lijie Wang, Haihua Yang, Biye Li, Cheng Cheng, Weiwei Lü, Rui Hu, Chenxia Li, Liu Yang, Xilin Luo, Xuejie Wu, Lunan Liu, Wenjun Cheng, Peng Cheng, Jianhao Zhang, Xiaoyu Zhang, Lei Lin, Xiaokun Wang, Yutuan Ma, Chuanhai Dong, Yanqi Sun, Yifu Chen, Yongyi Peng, Xiaojuan Liang, Shuicheng Yan, Han Fang, Yahui Zhou
cs.AI

Résumé

Dans ce rapport technique, nous présentons Skywork-13B, une famille de grands modèles de langage (LLM) entraînés sur un corpus de plus de 3,2 billions de tokens issus de textes en anglais et en chinois. Ce modèle de base bilingue est le LLM de taille comparable le plus largement entraîné et ouvertement publié à ce jour. Nous introduisons une méthodologie d'entraînement en deux étapes utilisant un corpus segmenté, visant respectivement un entraînement à usage général puis un entraînement spécifique à des domaines particuliers. Nous montrons que notre modèle excelle non seulement sur les benchmarks populaires, mais atteint également des performances de pointe en modélisation du langage chinois sur divers domaines. Par ailleurs, nous proposons une nouvelle méthode de détection de fuites, démontrant que la contamination des données de test est un problème pressant nécessitant une investigation approfondie par la communauté des LLM. Pour stimuler les recherches futures, nous publions Skywork-13B ainsi que les points de contrôle obtenus lors des étapes intermédiaires du processus d'entraînement. Nous publions également une partie de notre corpus SkyPile, une collection de plus de 150 milliards de tokens de textes web, qui constitue le plus grand corpus de pré-entraînement chinois de haute qualité ouvert à ce jour. Nous espérons que Skywork-13B et notre corpus ouvert serviront de ressource open-source précieuse pour démocratiser l'accès à des LLM de haute qualité.
English
In this technical report, we present Skywork-13B, a family of large language models (LLMs) trained on a corpus of over 3.2 trillion tokens drawn from both English and Chinese texts. This bilingual foundation model is the most extensively trained and openly published LLMs of comparable size to date. We introduce a two-stage training methodology using a segmented corpus, targeting general purpose training and then domain-specific enhancement training, respectively. We show that our model not only excels on popular benchmarks, but also achieves state of the art performance in Chinese language modeling on diverse domains. Furthermore, we propose a novel leakage detection method, demonstrating that test data contamination is a pressing issue warranting further investigation by the LLM community. To spur future research, we release Skywork-13B along with checkpoints obtained during intermediate stages of the training process. We are also releasing part of our SkyPile corpus, a collection of over 150 billion tokens of web text, which is the largest high quality open Chinese pre-training corpus to date. We hope Skywork-13B and our open corpus will serve as a valuable open-source resource to democratize access to high-quality LLMs.
PDF61December 15, 2024