ChatPaper.aiChatPaper

Baichuan 2: 대규모 오픈 언어 모델

Baichuan 2: Open Large-scale Language Models

September 19, 2023
저자: Aiyuan Yang, Bin Xiao, Bingning Wang, Borong Zhang, Chao Yin, Chenxu Lv, Da Pan, Dian Wang, Dong Yan, Fan Yang, Fei Deng, Feng Wang, Feng Liu, Guangwei Ai, Guosheng Dong Haizhou Zhao, Hang Xu, Haoze Sun, Hongda Zhang, Hui Liu, Jiaming Ji, Jian Xie, Juntao Dai, Kun Fang, Lei Su Liang Song, Lifeng Liu, Liyun Ru, Luyao Ma, Mang Wang, Mickel Liu, MingAn Lin, Nuolan Nie, Peidong Guo, Ruiyang Sun, Tao Zhang, Tianpeng Li, Tianyu Li, Wei Cheng, Weipeng Chen, Xiangrong Zeng, Xiaochuan Wang, Xiaoxi Chen, Xin Men, Xin Yu, Xuehai Pan, Yanjun Shen, Yiding Wang, Yiyu Li, Youxin Jiang, Yuchen Gao, Yupeng Zhang, Zenan Zhou, Zhiying Wu
cs.AI

초록

대규모 언어 모델(LLM)은 자연어 지시문의 몇 가지 예시만으로도 다양한 자연어 작업에서 뛰어난 성능을 보이며, 광범위한 피처 엔지니어링의 필요성을 줄여왔습니다. 그러나 가장 강력한 LLM 대부분은 클로즈드 소스이거나 영어 이외의 언어에 대한 기능이 제한적입니다. 본 기술 보고서에서는 2.6조 개의 토큰으로 처음부터 학습된 70억 및 130억 개의 파라미터를 포함한 대규모 다국어 언어 모델 시리즈인 Baichuan 2를 소개합니다. Baichuan 2는 MMLU, CMMLU, GSM8K, HumanEval과 같은 공개 벤치마크에서 유사한 규모의 다른 오픈소스 모델과 동등하거나 더 나은 성능을 보입니다. 또한 Baichuan 2는 의학 및 법률과 같은 특정 도메인에서도 탁월한 성능을 발휘합니다. 우리는 Baichuan 2의 학습 동역학을 더 잘 이해할 수 있도록 연구 커뮤니티에 모든 사전 학습 모델 체크포인트를 공개할 예정입니다.
English
Large language models (LLMs) have demonstrated remarkable performance on a variety of natural language tasks based on just a few examples of natural language instructions, reducing the need for extensive feature engineering. However, most powerful LLMs are closed-source or limited in their capability for languages other than English. In this technical report, we present Baichuan 2, a series of large-scale multilingual language models containing 7 billion and 13 billion parameters, trained from scratch, on 2.6 trillion tokens. Baichuan 2 matches or outperforms other open-source models of similar size on public benchmarks like MMLU, CMMLU, GSM8K, and HumanEval. Furthermore, Baichuan 2 excels in vertical domains such as medicine and law. We will release all pre-training model checkpoints to benefit the research community in better understanding the training dynamics of Baichuan 2.
PDF202December 15, 2024