Baichuan 2 : Modèles de langage à grande échelle ouverts
Baichuan 2: Open Large-scale Language Models
September 19, 2023
Auteurs: Aiyuan Yang, Bin Xiao, Bingning Wang, Borong Zhang, Chao Yin, Chenxu Lv, Da Pan, Dian Wang, Dong Yan, Fan Yang, Fei Deng, Feng Wang, Feng Liu, Guangwei Ai, Guosheng Dong Haizhou Zhao, Hang Xu, Haoze Sun, Hongda Zhang, Hui Liu, Jiaming Ji, Jian Xie, Juntao Dai, Kun Fang, Lei Su Liang Song, Lifeng Liu, Liyun Ru, Luyao Ma, Mang Wang, Mickel Liu, MingAn Lin, Nuolan Nie, Peidong Guo, Ruiyang Sun, Tao Zhang, Tianpeng Li, Tianyu Li, Wei Cheng, Weipeng Chen, Xiangrong Zeng, Xiaochuan Wang, Xiaoxi Chen, Xin Men, Xin Yu, Xuehai Pan, Yanjun Shen, Yiding Wang, Yiyu Li, Youxin Jiang, Yuchen Gao, Yupeng Zhang, Zenan Zhou, Zhiying Wu
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont démontré des performances remarquables sur une variété de tâches de traitement du langage naturel en se basant uniquement sur quelques exemples d'instructions en langage naturel, réduisant ainsi le besoin d'une ingénierie de caractéristiques extensive. Cependant, la plupart des LLMs les plus puissants sont propriétaires ou limités dans leurs capacités pour les langues autres que l'anglais. Dans ce rapport technique, nous présentons Baichuan 2, une série de grands modèles de langage multilingues contenant 7 milliards et 13 milliards de paramètres, entraînés à partir de zéro sur 2,6 billions de tokens. Baichuan 2 égale ou surpasse d'autres modèles open-source de taille similaire sur des benchmarks publics tels que MMLU, CMMLU, GSM8K et HumanEval. De plus, Baichuan 2 excelle dans des domaines spécialisés tels que la médecine et le droit. Nous publierons tous les points de contrôle des modèles de pré-entraînement afin de permettre à la communauté de recherche de mieux comprendre la dynamique d'entraînement de Baichuan 2.
English
Large language models (LLMs) have demonstrated remarkable performance on a
variety of natural language tasks based on just a few examples of natural
language instructions, reducing the need for extensive feature engineering.
However, most powerful LLMs are closed-source or limited in their capability
for languages other than English. In this technical report, we present Baichuan
2, a series of large-scale multilingual language models containing 7 billion
and 13 billion parameters, trained from scratch, on 2.6 trillion tokens.
Baichuan 2 matches or outperforms other open-source models of similar size on
public benchmarks like MMLU, CMMLU, GSM8K, and HumanEval. Furthermore, Baichuan
2 excels in vertical domains such as medicine and law. We will release all
pre-training model checkpoints to benefit the research community in better
understanding the training dynamics of Baichuan 2.