Skywork: Более открытая двуязычная базовая модель
Skywork: A More Open Bilingual Foundation Model
October 30, 2023
Авторы: Tianwen Wei, Liang Zhao, Lichang Zhang, Bo Zhu, Lijie Wang, Haihua Yang, Biye Li, Cheng Cheng, Weiwei Lü, Rui Hu, Chenxia Li, Liu Yang, Xilin Luo, Xuejie Wu, Lunan Liu, Wenjun Cheng, Peng Cheng, Jianhao Zhang, Xiaoyu Zhang, Lei Lin, Xiaokun Wang, Yutuan Ma, Chuanhai Dong, Yanqi Sun, Yifu Chen, Yongyi Peng, Xiaojuan Liang, Shuicheng Yan, Han Fang, Yahui Zhou
cs.AI
Аннотация
В данном техническом отчете мы представляем Skywork-13B — семейство крупных языковых моделей (LLM), обученных на корпусе из более чем 3,2 триллионов токенов, включающих тексты на английском и китайском языках. Эта двуязычная базовая модель является наиболее масштабно обученной и открыто опубликованной LLM сопоставимого размера на сегодняшний день. Мы описываем двухэтапную методику обучения с использованием сегментированного корпуса, нацеленную сначала на общее обучение, а затем на специализированное обучение для конкретных областей. Мы показываем, что наша модель не только демонстрирует выдающиеся результаты на популярных бенчмарках, но и достигает передовых показателей в моделировании китайского языка в различных областях. Кроме того, мы предлагаем новый метод обнаружения утечек данных, демонстрируя, что загрязнение тестовых данных является актуальной проблемой, требующей дальнейшего изучения сообществом LLM. Для стимулирования будущих исследований мы выпускаем Skywork-13B вместе с контрольными точками, полученными на промежуточных этапах процесса обучения. Мы также публикуем часть нашего корпуса SkyPile, содержащего более 150 миллиардов токенов веб-текстов, который является крупнейшим открытым корпусом высокого качества для предварительного обучения на китайском языке на сегодняшний день. Мы надеемся, что Skywork-13B и наш открытый корпус станут ценным открытым ресурсом, способствующим демократизации доступа к высококачественным LLM.
English
In this technical report, we present Skywork-13B, a family of large language
models (LLMs) trained on a corpus of over 3.2 trillion tokens drawn from both
English and Chinese texts. This bilingual foundation model is the most
extensively trained and openly published LLMs of comparable size to date. We
introduce a two-stage training methodology using a segmented corpus, targeting
general purpose training and then domain-specific enhancement training,
respectively. We show that our model not only excels on popular benchmarks, but
also achieves state of the art performance in Chinese language modeling
on diverse domains. Furthermore, we propose a novel leakage detection method,
demonstrating that test data contamination is a pressing issue warranting
further investigation by the LLM community. To spur future research, we release
Skywork-13B along with checkpoints obtained during intermediate stages of the
training process. We are also releasing part of our SkyPile corpus, a
collection of over 150 billion tokens of web text, which is the largest high
quality open Chinese pre-training corpus to date. We hope Skywork-13B and our
open corpus will serve as a valuable open-source resource to democratize access
to high-quality LLMs.