Orion-14B : Modèles de langage multilingues de grande taille en open source
Orion-14B: Open-source Multilingual Large Language Models
January 20, 2024
Auteurs: Du Chen, Yi Huang, Xiaopu Li, Yongqiang Li, Yongqiang Liu, Haihui Pan, Leichao Xu, Dacheng Zhang, Zhipeng Zhang, Kun Han
cs.AI
Résumé
Dans cette étude, nous présentons Orion-14B, une collection de grands modèles de langage multilingues comptant 14 milliards de paramètres. Nous utilisons une approche de planification des données pour entraîner un modèle de base sur un corpus diversifié de 2,5 billions de tokens, provenant de textes en anglais, chinois, japonais, coréen et d'autres langues. De plus, nous avons affiné une série de modèles adaptés à des applications conversationnelles et à d'autres cas d'utilisation spécifiques. Nos résultats d'évaluation montrent qu'Orion-14B atteint des performances de pointe sur un large éventail de tâches. Nous rendons la famille de modèles Orion-14B et son code associé accessibles au public via https://github.com/OrionStarAI/Orion, dans le but d'inspirer de futures recherches et applications pratiques dans le domaine.
English
In this study, we introduce Orion-14B, a collection of multilingual large
language models with 14 billion parameters. We utilize a data scheduling
approach to train a foundational model on a diverse corpus of 2.5 trillion
tokens, sourced from texts in English, Chinese, Japanese, Korean, and other
languages. Additionally, we fine-tuned a series of models tailored for
conversational applications and other specific use cases. Our evaluation
results demonstrate that Orion-14B achieves state-of-the-art performance across
a broad spectrum of tasks. We make the Orion-14B model family and its
associated code publicly accessible https://github.com/OrionStarAI/Orion,
aiming to inspire future research and practical applications in the field.