ChatPaper.aiChatPaper

Orion-14B: Open-Source Multilinguale Große Sprachmodelle

Orion-14B: Open-source Multilingual Large Language Models

January 20, 2024
Autoren: Du Chen, Yi Huang, Xiaopu Li, Yongqiang Li, Yongqiang Liu, Haihui Pan, Leichao Xu, Dacheng Zhang, Zhipeng Zhang, Kun Han
cs.AI

Zusammenfassung

In dieser Studie stellen wir Orion-14B vor, eine Sammlung multilingualer Large Language Models mit 14 Milliarden Parametern. Wir verwenden einen Data-Scheduling-Ansatz, um ein Basismodell auf einem vielfältigen Korpus von 2,5 Billionen Tokens zu trainieren, der aus Texten in Englisch, Chinesisch, Japanisch, Koreanisch und anderen Sprachen stammt. Zusätzlich haben wir eine Reihe von Modellen für Konversationsanwendungen und andere spezifische Anwendungsfälle feinabgestimmt. Unsere Evaluierungsergebnisse zeigen, dass Orion-14B state-of-the-art Leistungen über ein breites Spektrum von Aufgaben hinweg erzielt. Wir stellen die Orion-14B-Modellfamilie und den zugehörigen Code öffentlich zugänglich unter https://github.com/OrionStarAI/Orion, mit dem Ziel, zukünftige Forschung und praktische Anwendungen in diesem Bereich zu inspirieren.
English
In this study, we introduce Orion-14B, a collection of multilingual large language models with 14 billion parameters. We utilize a data scheduling approach to train a foundational model on a diverse corpus of 2.5 trillion tokens, sourced from texts in English, Chinese, Japanese, Korean, and other languages. Additionally, we fine-tuned a series of models tailored for conversational applications and other specific use cases. Our evaluation results demonstrate that Orion-14B achieves state-of-the-art performance across a broad spectrum of tasks. We make the Orion-14B model family and its associated code publicly accessible https://github.com/OrionStarAI/Orion, aiming to inspire future research and practical applications in the field.
PDF142December 15, 2024