Skywork: Um Modelo de Base Bilíngue Mais Aberto
Skywork: A More Open Bilingual Foundation Model
October 30, 2023
Autores: Tianwen Wei, Liang Zhao, Lichang Zhang, Bo Zhu, Lijie Wang, Haihua Yang, Biye Li, Cheng Cheng, Weiwei Lü, Rui Hu, Chenxia Li, Liu Yang, Xilin Luo, Xuejie Wu, Lunan Liu, Wenjun Cheng, Peng Cheng, Jianhao Zhang, Xiaoyu Zhang, Lei Lin, Xiaokun Wang, Yutuan Ma, Chuanhai Dong, Yanqi Sun, Yifu Chen, Yongyi Peng, Xiaojuan Liang, Shuicheng Yan, Han Fang, Yahui Zhou
cs.AI
Resumo
Neste relatório técnico, apresentamos o Skywork-13B, uma família de modelos de linguagem de grande escala (LLMs) treinada em um corpus de mais de 3,2 trilhões de tokens extraídos de textos em inglês e chinês. Este modelo de base bilíngue é o LLM de tamanho comparável mais extensivamente treinado e publicado abertamente até o momento. Introduzimos uma metodologia de treinamento em duas etapas utilizando um corpus segmentado, visando o treinamento de propósito geral e, em seguida, o treinamento de aprimoramento específico de domínio, respectivamente. Demonstramos que nosso modelo não apenas se destaca em benchmarks populares, mas também alcança desempenho de ponta em modelagem de linguagem chinesa em diversos domínios. Além disso, propomos um novo método de detecção de vazamento, demonstrando que a contaminação de dados de teste é uma questão urgente que merece investigação adicional pela comunidade de LLMs. Para estimular pesquisas futuras, liberamos o Skywork-13B juntamente com checkpoints obtidos durante estágios intermediários do processo de treinamento. Também estamos disponibilizando parte do nosso corpus SkyPile, uma coleção de mais de 150 bilhões de tokens de texto da web, que é o maior corpus de pré-treinamento chinês de alta qualidade aberto até o momento. Esperamos que o Skywork-13B e nosso corpus aberto sirvam como um recurso de código aberto valioso para democratizar o acesso a LLMs de alta qualidade.
English
In this technical report, we present Skywork-13B, a family of large language
models (LLMs) trained on a corpus of over 3.2 trillion tokens drawn from both
English and Chinese texts. This bilingual foundation model is the most
extensively trained and openly published LLMs of comparable size to date. We
introduce a two-stage training methodology using a segmented corpus, targeting
general purpose training and then domain-specific enhancement training,
respectively. We show that our model not only excels on popular benchmarks, but
also achieves state of the art performance in Chinese language modeling
on diverse domains. Furthermore, we propose a novel leakage detection method,
demonstrating that test data contamination is a pressing issue warranting
further investigation by the LLM community. To spur future research, we release
Skywork-13B along with checkpoints obtained during intermediate stages of the
training process. We are also releasing part of our SkyPile corpus, a
collection of over 150 billion tokens of web text, which is the largest high
quality open Chinese pre-training corpus to date. We hope Skywork-13B and our
open corpus will serve as a valuable open-source resource to democratize access
to high-quality LLMs.