Orion-14B: Open-source meertalige grote taalmodellen
Orion-14B: Open-source Multilingual Large Language Models
January 20, 2024
Auteurs: Du Chen, Yi Huang, Xiaopu Li, Yongqiang Li, Yongqiang Liu, Haihui Pan, Leichao Xu, Dacheng Zhang, Zhipeng Zhang, Kun Han
cs.AI
Samenvatting
In deze studie introduceren we Orion-14B, een verzameling van meertalige grote taalmodellen met 14 miljard parameters. We maken gebruik van een dataplanningbenadering om een fundamenteel model te trainen op een diverse corpus van 2,5 biljoen tokens, afkomstig uit teksten in het Engels, Chinees, Japans, Koreaans en andere talen. Daarnaast hebben we een reeks modellen afgestemd voor conversatietoepassingen en andere specifieke use cases. Onze evaluatieresultaten tonen aan dat Orion-14B state-of-the-art prestaties behaalt over een breed scala aan taken. We stellen de Orion-14B modellenfamilie en de bijbehorende code publiekelijk beschikbaar via https://github.com/OrionStarAI/Orion, met als doel toekomstig onderzoek en praktische toepassingen in het veld te inspireren.
English
In this study, we introduce Orion-14B, a collection of multilingual large
language models with 14 billion parameters. We utilize a data scheduling
approach to train a foundational model on a diverse corpus of 2.5 trillion
tokens, sourced from texts in English, Chinese, Japanese, Korean, and other
languages. Additionally, we fine-tuned a series of models tailored for
conversational applications and other specific use cases. Our evaluation
results demonstrate that Orion-14B achieves state-of-the-art performance across
a broad spectrum of tasks. We make the Orion-14B model family and its
associated code publicly accessible https://github.com/OrionStarAI/Orion,
aiming to inspire future research and practical applications in the field.