Skywork: Un Modello Fondamentale Bilingue Più Aperto

Abstract

In questo rapporto tecnico, presentiamo Skywork-13B, una famiglia di modelli linguistici di grandi dimensioni (LLM) addestrati su un corpus di oltre 3,2 trilioni di token estratti da testi in inglese e cinese. Questo modello di base bilingue rappresenta il più estensivamente addestrato e pubblicamente disponibile tra gli LLM di dimensioni comparabili fino ad oggi. Introduciamo una metodologia di addestramento in due fasi che utilizza un corpus segmentato, mirando rispettivamente a un addestramento di carattere generale e poi a un addestramento di potenziamento specifico per dominio. Dimostriamo che il nostro modello non solo eccelle nei benchmark più diffusi, ma raggiunge anche prestazioni all'avanguardia nella modellazione linguistica cinese su diversi domini. Inoltre, proponiamo un nuovo metodo di rilevamento delle perdite, dimostrando che la contaminazione dei dati di test è un problema urgente che richiede ulteriori indagini da parte della comunità degli LLM. Per stimolare future ricerche, rilasciamo Skywork-13B insieme ai checkpoint ottenuti durante le fasi intermedie del processo di addestramento. Stiamo anche rilasciando parte del nostro corpus SkyPile, una raccolta di oltre 150 miliardi di token di testo web, che rappresenta il più grande corpus di pre-addestramento cinese di alta qualità aperto fino ad oggi. Speriamo che Skywork-13B e il nostro corpus aperto possano servire come una preziosa risorsa open-source per democratizzare l'accesso a LLM di alta qualità.

English

In this technical report, we present Skywork-13B, a family of large language models (LLMs) trained on a corpus of over 3.2 trillion tokens drawn from both English and Chinese texts. This bilingual foundation model is the most extensively trained and openly published LLMs of comparable size to date. We introduce a two-stage training methodology using a segmented corpus, targeting general purpose training and then domain-specific enhancement training, respectively. We show that our model not only excels on popular benchmarks, but also achieves state of the art performance in Chinese language modeling on diverse domains. Furthermore, we propose a novel leakage detection method, demonstrating that test data contamination is a pressing issue warranting further investigation by the LLM community. To spur future research, we release Skywork-13B along with checkpoints obtained during intermediate stages of the training process. We are also releasing part of our SkyPile corpus, a collection of over 150 billion tokens of web text, which is the largest high quality open Chinese pre-training corpus to date. We hope Skywork-13B and our open corpus will serve as a valuable open-source resource to democratize access to high-quality LLMs.

Skywork: Un Modello Fondamentale Bilingue Più Aperto

Skywork: A More Open Bilingual Foundation Model

Abstract

Support