ChatPaper.aiChatPaper

Baichuan 2: Modelos de Lenguaje a Gran Escala de Código Abierto

Baichuan 2: Open Large-scale Language Models

September 19, 2023
Autores: Aiyuan Yang, Bin Xiao, Bingning Wang, Borong Zhang, Chao Yin, Chenxu Lv, Da Pan, Dian Wang, Dong Yan, Fan Yang, Fei Deng, Feng Wang, Feng Liu, Guangwei Ai, Guosheng Dong Haizhou Zhao, Hang Xu, Haoze Sun, Hongda Zhang, Hui Liu, Jiaming Ji, Jian Xie, Juntao Dai, Kun Fang, Lei Su Liang Song, Lifeng Liu, Liyun Ru, Luyao Ma, Mang Wang, Mickel Liu, MingAn Lin, Nuolan Nie, Peidong Guo, Ruiyang Sun, Tao Zhang, Tianpeng Li, Tianyu Li, Wei Cheng, Weipeng Chen, Xiangrong Zeng, Xiaochuan Wang, Xiaoxi Chen, Xin Men, Xin Yu, Xuehai Pan, Yanjun Shen, Yiding Wang, Yiyu Li, Youxin Jiang, Yuchen Gao, Yupeng Zhang, Zenan Zhou, Zhiying Wu
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento notable en una variedad de tareas de procesamiento de lenguaje natural basándose en solo unos pocos ejemplos de instrucciones en lenguaje natural, reduciendo así la necesidad de un extenso diseño de características. Sin embargo, la mayoría de los LLMs más potentes son de código cerrado o tienen capacidades limitadas para idiomas distintos al inglés. En este informe técnico, presentamos Baichuan 2, una serie de modelos de lenguaje multilingüe de gran escala que contienen 7 mil millones y 13 mil millones de parámetros, entrenados desde cero con 2.6 billones de tokens. Baichuan 2 iguala o supera a otros modelos de código abierto de tamaño similar en benchmarks públicos como MMLU, CMMLU, GSM8K y HumanEval. Además, Baichuan 2 destaca en dominios verticales como la medicina y el derecho. Publicaremos todos los puntos de control de los modelos de preentrenamiento para beneficiar a la comunidad de investigación y facilitar una mejor comprensión de la dinámica de entrenamiento de Baichuan 2.
English
Large language models (LLMs) have demonstrated remarkable performance on a variety of natural language tasks based on just a few examples of natural language instructions, reducing the need for extensive feature engineering. However, most powerful LLMs are closed-source or limited in their capability for languages other than English. In this technical report, we present Baichuan 2, a series of large-scale multilingual language models containing 7 billion and 13 billion parameters, trained from scratch, on 2.6 trillion tokens. Baichuan 2 matches or outperforms other open-source models of similar size on public benchmarks like MMLU, CMMLU, GSM8K, and HumanEval. Furthermore, Baichuan 2 excels in vertical domains such as medicine and law. We will release all pre-training model checkpoints to benefit the research community in better understanding the training dynamics of Baichuan 2.
PDF202December 15, 2024