ChatPaper.aiChatPaper

Baichuan 2: オープン大規模言語モデル

Baichuan 2: Open Large-scale Language Models

September 19, 2023
著者: Aiyuan Yang, Bin Xiao, Bingning Wang, Borong Zhang, Chao Yin, Chenxu Lv, Da Pan, Dian Wang, Dong Yan, Fan Yang, Fei Deng, Feng Wang, Feng Liu, Guangwei Ai, Guosheng Dong Haizhou Zhao, Hang Xu, Haoze Sun, Hongda Zhang, Hui Liu, Jiaming Ji, Jian Xie, Juntao Dai, Kun Fang, Lei Su Liang Song, Lifeng Liu, Liyun Ru, Luyao Ma, Mang Wang, Mickel Liu, MingAn Lin, Nuolan Nie, Peidong Guo, Ruiyang Sun, Tao Zhang, Tianpeng Li, Tianyu Li, Wei Cheng, Weipeng Chen, Xiangrong Zeng, Xiaochuan Wang, Xiaoxi Chen, Xin Men, Xin Yu, Xuehai Pan, Yanjun Shen, Yiding Wang, Yiyu Li, Youxin Jiang, Yuchen Gao, Yupeng Zhang, Zenan Zhou, Zhiying Wu
cs.AI

要旨

大規模言語モデル(LLM)は、自然言語指示のわずかな例に基づいて、さまざまな自然言語タスクで顕著な性能を発揮し、大規模な特徴量エンジニアリングの必要性を低減しています。しかし、最も強力なLLMの多くはクローズドソースであるか、英語以外の言語での能力が制限されています。本テクニカルレポートでは、2.6兆トークンでゼロからトレーニングされた、70億および130億パラメータを含む大規模多言語言語モデルシリーズであるBaichuan 2を紹介します。Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークにおいて、同規模の他のオープンソースモデルと同等またはそれ以上の性能を発揮します。さらに、Baichuan 2は医療や法律などの垂直領域でも優れた性能を示します。我々は、Baichuan 2のトレーニングダイナミクスをより深く理解するために、すべての事前学習モデルチェックポイントをリリースし、研究コミュニティに貢献します。
English
Large language models (LLMs) have demonstrated remarkable performance on a variety of natural language tasks based on just a few examples of natural language instructions, reducing the need for extensive feature engineering. However, most powerful LLMs are closed-source or limited in their capability for languages other than English. In this technical report, we present Baichuan 2, a series of large-scale multilingual language models containing 7 billion and 13 billion parameters, trained from scratch, on 2.6 trillion tokens. Baichuan 2 matches or outperforms other open-source models of similar size on public benchmarks like MMLU, CMMLU, GSM8K, and HumanEval. Furthermore, Baichuan 2 excels in vertical domains such as medicine and law. We will release all pre-training model checkpoints to benefit the research community in better understanding the training dynamics of Baichuan 2.
PDF202December 15, 2024