Orion-14B: Open-Source Multilinguale Große Sprachmodelle
Orion-14B: Open-source Multilingual Large Language Models
January 20, 2024
Autoren: Du Chen, Yi Huang, Xiaopu Li, Yongqiang Li, Yongqiang Liu, Haihui Pan, Leichao Xu, Dacheng Zhang, Zhipeng Zhang, Kun Han
cs.AI
Zusammenfassung
In dieser Studie stellen wir Orion-14B vor, eine Sammlung multilingualer Large Language Models mit 14 Milliarden Parametern. Wir verwenden einen Data-Scheduling-Ansatz, um ein Basismodell auf einem vielfältigen Korpus von 2,5 Billionen Tokens zu trainieren, der aus Texten in Englisch, Chinesisch, Japanisch, Koreanisch und anderen Sprachen stammt. Zusätzlich haben wir eine Reihe von Modellen für Konversationsanwendungen und andere spezifische Anwendungsfälle feinabgestimmt. Unsere Evaluierungsergebnisse zeigen, dass Orion-14B state-of-the-art Leistungen über ein breites Spektrum von Aufgaben hinweg erzielt. Wir stellen die Orion-14B-Modellfamilie und den zugehörigen Code öffentlich zugänglich unter https://github.com/OrionStarAI/Orion, mit dem Ziel, zukünftige Forschung und praktische Anwendungen in diesem Bereich zu inspirieren.
English
In this study, we introduce Orion-14B, a collection of multilingual large
language models with 14 billion parameters. We utilize a data scheduling
approach to train a foundational model on a diverse corpus of 2.5 trillion
tokens, sourced from texts in English, Chinese, Japanese, Korean, and other
languages. Additionally, we fine-tuned a series of models tailored for
conversational applications and other specific use cases. Our evaluation
results demonstrate that Orion-14B achieves state-of-the-art performance across
a broad spectrum of tasks. We make the Orion-14B model family and its
associated code publicly accessible https://github.com/OrionStarAI/Orion,
aiming to inspire future research and practical applications in the field.