ChatPaper.aiChatPaper

Orion-14B: Modelli Linguistici Multilingue di Grandi Dimensioni Open-Source

Orion-14B: Open-source Multilingual Large Language Models

January 20, 2024
Autori: Du Chen, Yi Huang, Xiaopu Li, Yongqiang Li, Yongqiang Liu, Haihui Pan, Leichao Xu, Dacheng Zhang, Zhipeng Zhang, Kun Han
cs.AI

Abstract

In questo studio, presentiamo Orion-14B, una famiglia di modelli linguistici multilingue di grandi dimensioni con 14 miliardi di parametri. Utilizziamo un approccio di pianificazione dei dati per addestrare un modello di base su un corpus diversificato di 2,5 trilioni di token, provenienti da testi in inglese, cinese, giapponese, coreano e altre lingue. Inoltre, abbiamo ottimizzato una serie di modelli specificamente progettati per applicazioni conversazionali e altri casi d'uso specifici. I risultati della nostra valutazione dimostrano che Orion-14B raggiunge prestazioni all'avanguardia in un'ampia gamma di compiti. Rendiamo pubblicamente accessibile la famiglia di modelli Orion-14B e il relativo codice all'indirizzo https://github.com/OrionStarAI/Orion, con l'obiettivo di ispirare future ricerche e applicazioni pratiche nel campo.
English
In this study, we introduce Orion-14B, a collection of multilingual large language models with 14 billion parameters. We utilize a data scheduling approach to train a foundational model on a diverse corpus of 2.5 trillion tokens, sourced from texts in English, Chinese, Japanese, Korean, and other languages. Additionally, we fine-tuned a series of models tailored for conversational applications and other specific use cases. Our evaluation results demonstrate that Orion-14B achieves state-of-the-art performance across a broad spectrum of tasks. We make the Orion-14B model family and its associated code publicly accessible https://github.com/OrionStarAI/Orion, aiming to inspire future research and practical applications in the field.
PDF142December 15, 2024