Skywork: Un Modello Fondamentale Bilingue Più Aperto
Skywork: A More Open Bilingual Foundation Model
October 30, 2023
Autori: Tianwen Wei, Liang Zhao, Lichang Zhang, Bo Zhu, Lijie Wang, Haihua Yang, Biye Li, Cheng Cheng, Weiwei Lü, Rui Hu, Chenxia Li, Liu Yang, Xilin Luo, Xuejie Wu, Lunan Liu, Wenjun Cheng, Peng Cheng, Jianhao Zhang, Xiaoyu Zhang, Lei Lin, Xiaokun Wang, Yutuan Ma, Chuanhai Dong, Yanqi Sun, Yifu Chen, Yongyi Peng, Xiaojuan Liang, Shuicheng Yan, Han Fang, Yahui Zhou
cs.AI
Abstract
In questo rapporto tecnico, presentiamo Skywork-13B, una famiglia di modelli linguistici di grandi dimensioni (LLM) addestrati su un corpus di oltre 3,2 trilioni di token estratti da testi in inglese e cinese. Questo modello di base bilingue rappresenta il più estensivamente addestrato e pubblicamente disponibile tra gli LLM di dimensioni comparabili fino ad oggi. Introduciamo una metodologia di addestramento in due fasi che utilizza un corpus segmentato, mirando rispettivamente a un addestramento di carattere generale e poi a un addestramento di potenziamento specifico per dominio. Dimostriamo che il nostro modello non solo eccelle nei benchmark più diffusi, ma raggiunge anche prestazioni all'avanguardia nella modellazione linguistica cinese su diversi domini. Inoltre, proponiamo un nuovo metodo di rilevamento delle perdite, dimostrando che la contaminazione dei dati di test è un problema urgente che richiede ulteriori indagini da parte della comunità degli LLM. Per stimolare future ricerche, rilasciamo Skywork-13B insieme ai checkpoint ottenuti durante le fasi intermedie del processo di addestramento. Stiamo anche rilasciando parte del nostro corpus SkyPile, una raccolta di oltre 150 miliardi di token di testo web, che rappresenta il più grande corpus di pre-addestramento cinese di alta qualità aperto fino ad oggi. Speriamo che Skywork-13B e il nostro corpus aperto possano servire come una preziosa risorsa open-source per democratizzare l'accesso a LLM di alta qualità.
English
In this technical report, we present Skywork-13B, a family of large language
models (LLMs) trained on a corpus of over 3.2 trillion tokens drawn from both
English and Chinese texts. This bilingual foundation model is the most
extensively trained and openly published LLMs of comparable size to date. We
introduce a two-stage training methodology using a segmented corpus, targeting
general purpose training and then domain-specific enhancement training,
respectively. We show that our model not only excels on popular benchmarks, but
also achieves state of the art performance in Chinese language modeling
on diverse domains. Furthermore, we propose a novel leakage detection method,
demonstrating that test data contamination is a pressing issue warranting
further investigation by the LLM community. To spur future research, we release
Skywork-13B along with checkpoints obtained during intermediate stages of the
training process. We are also releasing part of our SkyPile corpus, a
collection of over 150 billion tokens of web text, which is the largest high
quality open Chinese pre-training corpus to date. We hope Skywork-13B and our
open corpus will serve as a valuable open-source resource to democratize access
to high-quality LLMs.