ChatPaper.aiChatPaper

Orion-14B : Modèles de langage multilingues de grande taille en open source

Orion-14B: Open-source Multilingual Large Language Models

January 20, 2024
Auteurs: Du Chen, Yi Huang, Xiaopu Li, Yongqiang Li, Yongqiang Liu, Haihui Pan, Leichao Xu, Dacheng Zhang, Zhipeng Zhang, Kun Han
cs.AI

Résumé

Dans cette étude, nous présentons Orion-14B, une collection de grands modèles de langage multilingues comptant 14 milliards de paramètres. Nous utilisons une approche de planification des données pour entraîner un modèle de base sur un corpus diversifié de 2,5 billions de tokens, provenant de textes en anglais, chinois, japonais, coréen et d'autres langues. De plus, nous avons affiné une série de modèles adaptés à des applications conversationnelles et à d'autres cas d'utilisation spécifiques. Nos résultats d'évaluation montrent qu'Orion-14B atteint des performances de pointe sur un large éventail de tâches. Nous rendons la famille de modèles Orion-14B et son code associé accessibles au public via https://github.com/OrionStarAI/Orion, dans le but d'inspirer de futures recherches et applications pratiques dans le domaine.
English
In this study, we introduce Orion-14B, a collection of multilingual large language models with 14 billion parameters. We utilize a data scheduling approach to train a foundational model on a diverse corpus of 2.5 trillion tokens, sourced from texts in English, Chinese, Japanese, Korean, and other languages. Additionally, we fine-tuned a series of models tailored for conversational applications and other specific use cases. Our evaluation results demonstrate that Orion-14B achieves state-of-the-art performance across a broad spectrum of tasks. We make the Orion-14B model family and its associated code publicly accessible https://github.com/OrionStarAI/Orion, aiming to inspire future research and practical applications in the field.
PDF142December 15, 2024