ChatPaper.aiChatPaper

Skywork: Un Modelo Fundacional Bilingüe Más Abierto

Skywork: A More Open Bilingual Foundation Model

October 30, 2023
Autores: Tianwen Wei, Liang Zhao, Lichang Zhang, Bo Zhu, Lijie Wang, Haihua Yang, Biye Li, Cheng Cheng, Weiwei Lü, Rui Hu, Chenxia Li, Liu Yang, Xilin Luo, Xuejie Wu, Lunan Liu, Wenjun Cheng, Peng Cheng, Jianhao Zhang, Xiaoyu Zhang, Lei Lin, Xiaokun Wang, Yutuan Ma, Chuanhai Dong, Yanqi Sun, Yifu Chen, Yongyi Peng, Xiaojuan Liang, Shuicheng Yan, Han Fang, Yahui Zhou
cs.AI

Resumen

En este informe técnico, presentamos Skywork-13B, una familia de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) entrenados en un corpus de más de 3,2 billones de tokens extraídos de textos en inglés y chino. Este modelo base bilingüe es el LLM de tamaño comparable más extensamente entrenado y abiertamente publicado hasta la fecha. Introducimos una metodología de entrenamiento en dos etapas utilizando un corpus segmentado, dirigido primero al entrenamiento de propósito general y luego al entrenamiento de mejora específico de dominio, respectivamente. Demostramos que nuestro modelo no solo sobresale en los benchmarks populares, sino que también alcanza un rendimiento de vanguardia en el modelado del lenguaje chino en diversos dominios. Además, proponemos un novedoso método de detección de fugas, demostrando que la contaminación de datos de prueba es un problema urgente que merece una mayor investigación por parte de la comunidad de LLMs. Para impulsar futuras investigaciones, publicamos Skywork-13B junto con los puntos de control obtenidos durante las etapas intermedias del proceso de entrenamiento. También estamos liberando parte de nuestro corpus SkyPile, una colección de más de 150 mil millones de tokens de texto web, que es el corpus de preentrenamiento chino de alta calidad y abierto más grande hasta la fecha. Esperamos que Skywork-13B y nuestro corpus abierto sirvan como un recurso de código abierto valioso para democratizar el acceso a LLMs de alta calidad.
English
In this technical report, we present Skywork-13B, a family of large language models (LLMs) trained on a corpus of over 3.2 trillion tokens drawn from both English and Chinese texts. This bilingual foundation model is the most extensively trained and openly published LLMs of comparable size to date. We introduce a two-stage training methodology using a segmented corpus, targeting general purpose training and then domain-specific enhancement training, respectively. We show that our model not only excels on popular benchmarks, but also achieves state of the art performance in Chinese language modeling on diverse domains. Furthermore, we propose a novel leakage detection method, demonstrating that test data contamination is a pressing issue warranting further investigation by the LLM community. To spur future research, we release Skywork-13B along with checkpoints obtained during intermediate stages of the training process. We are also releasing part of our SkyPile corpus, a collection of over 150 billion tokens of web text, which is the largest high quality open Chinese pre-training corpus to date. We hope Skywork-13B and our open corpus will serve as a valuable open-source resource to democratize access to high-quality LLMs.
PDF61December 15, 2024