Baichuan 2: Offene großskalige Sprachmodelle
Baichuan 2: Open Large-scale Language Models
September 19, 2023
Autoren: Aiyuan Yang, Bin Xiao, Bingning Wang, Borong Zhang, Chao Yin, Chenxu Lv, Da Pan, Dian Wang, Dong Yan, Fan Yang, Fei Deng, Feng Wang, Feng Liu, Guangwei Ai, Guosheng Dong Haizhou Zhao, Hang Xu, Haoze Sun, Hongda Zhang, Hui Liu, Jiaming Ji, Jian Xie, Juntao Dai, Kun Fang, Lei Su Liang Song, Lifeng Liu, Liyun Ru, Luyao Ma, Mang Wang, Mickel Liu, MingAn Lin, Nuolan Nie, Peidong Guo, Ruiyang Sun, Tao Zhang, Tianpeng Li, Tianyu Li, Wei Cheng, Weipeng Chen, Xiangrong Zeng, Xiaochuan Wang, Xiaoxi Chen, Xin Men, Xin Yu, Xuehai Pan, Yanjun Shen, Yiding Wang, Yiyu Li, Youxin Jiang, Yuchen Gao, Yupeng Zhang, Zenan Zhou, Zhiying Wu
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben bemerkenswerte Leistungen bei einer Vielzahl von natürlichen Sprachaufgaben gezeigt, basierend auf nur wenigen Beispielen natürlicher Sprachinstruktionen, wodurch der Bedarf an umfangreicher Feature-Engineering reduziert wird. Die leistungsstärksten LLMs sind jedoch meist Closed-Source oder in ihrer Fähigkeit für Sprachen außer Englisch eingeschränkt. In diesem technischen Bericht stellen wir Baichuan 2 vor, eine Reihe von groß angelegten mehrsprachigen Sprachmodellen mit 7 Milliarden und 13 Milliarden Parametern, die von Grund auf mit 2,6 Billionen Tokens trainiert wurden. Baichuan 2 erreicht oder übertrifft andere Open-Source-Modelle ähnlicher Größe auf öffentlichen Benchmarks wie MMLU, CMMLU, GSM8K und HumanEval. Darüber hinaus zeichnet sich Baichuan 2 in vertikalen Domänen wie Medizin und Recht aus. Wir werden alle Pre-Training-Modellcheckpoints veröffentlichen, um der Forschungsgemeinschaft zu ermöglichen, die Trainingsdynamik von Baichuan 2 besser zu verstehen.
English
Large language models (LLMs) have demonstrated remarkable performance on a
variety of natural language tasks based on just a few examples of natural
language instructions, reducing the need for extensive feature engineering.
However, most powerful LLMs are closed-source or limited in their capability
for languages other than English. In this technical report, we present Baichuan
2, a series of large-scale multilingual language models containing 7 billion
and 13 billion parameters, trained from scratch, on 2.6 trillion tokens.
Baichuan 2 matches or outperforms other open-source models of similar size on
public benchmarks like MMLU, CMMLU, GSM8K, and HumanEval. Furthermore, Baichuan
2 excels in vertical domains such as medicine and law. We will release all
pre-training model checkpoints to benefit the research community in better
understanding the training dynamics of Baichuan 2.