Baichuan 2: Modelli Linguistici su Larga Scala Open Source

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato prestazioni notevoli in una varietà di compiti di elaborazione del linguaggio naturale basandosi su pochi esempi di istruzioni in linguaggio naturale, riducendo così la necessità di un'ampia progettazione di caratteristiche. Tuttavia, la maggior parte dei LLM più potenti sono closed-source o limitati nelle loro capacità per lingue diverse dall'inglese. In questo rapporto tecnico, presentiamo Baichuan 2, una serie di modelli linguistici multilingue su larga scala contenenti 7 miliardi e 13 miliardi di parametri, addestrati da zero su 2,6 trilioni di token. Baichuan 2 eguaglia o supera altri modelli open-source di dimensioni simili su benchmark pubblici come MMLU, CMMLU, GSM8K e HumanEval. Inoltre, Baichuan 2 eccelle in domini verticali come medicina e diritto. Rilasceremo tutti i checkpoint dei modelli pre-addestrati per favorire la comunità di ricerca nel comprendere meglio le dinamiche di addestramento di Baichuan 2.

English

Large language models (LLMs) have demonstrated remarkable performance on a variety of natural language tasks based on just a few examples of natural language instructions, reducing the need for extensive feature engineering. However, most powerful LLMs are closed-source or limited in their capability for languages other than English. In this technical report, we present Baichuan 2, a series of large-scale multilingual language models containing 7 billion and 13 billion parameters, trained from scratch, on 2.6 trillion tokens. Baichuan 2 matches or outperforms other open-source models of similar size on public benchmarks like MMLU, CMMLU, GSM8K, and HumanEval. Furthermore, Baichuan 2 excels in vertical domains such as medicine and law. We will release all pre-training model checkpoints to benefit the research community in better understanding the training dynamics of Baichuan 2.

Baichuan 2: Modelli Linguistici su Larga Scala Open Source

Baichuan 2: Open Large-scale Language Models

Abstract

Support