Orion-14B: Modelos de Linguagem de Grande Escala Multilíngues de Código Aberto
Orion-14B: Open-source Multilingual Large Language Models
January 20, 2024
Autores: Du Chen, Yi Huang, Xiaopu Li, Yongqiang Li, Yongqiang Liu, Haihui Pan, Leichao Xu, Dacheng Zhang, Zhipeng Zhang, Kun Han
cs.AI
Resumo
Neste estudo, apresentamos o Orion-14B, uma coleção de modelos de linguagem grandes multilingues com 14 bilhões de parâmetros. Utilizamos uma abordagem de agendamento de dados para treinar um modelo base em um corpus diversificado de 2,5 trilhões de tokens, provenientes de textos em inglês, chinês, japonês, coreano e outros idiomas. Além disso, ajustamos finamente uma série de modelos adaptados para aplicações conversacionais e outros casos de uso específicos. Nossos resultados de avaliação demonstram que o Orion-14B alcança desempenho de ponta em uma ampla gama de tarefas. Disponibilizamos publicamente a família de modelos Orion-14B e seu código associado em https://github.com/OrionStarAI/Orion, com o objetivo de inspirar pesquisas futuras e aplicações práticas na área.
English
In this study, we introduce Orion-14B, a collection of multilingual large
language models with 14 billion parameters. We utilize a data scheduling
approach to train a foundational model on a diverse corpus of 2.5 trillion
tokens, sourced from texts in English, Chinese, Japanese, Korean, and other
languages. Additionally, we fine-tuned a series of models tailored for
conversational applications and other specific use cases. Our evaluation
results demonstrate that Orion-14B achieves state-of-the-art performance across
a broad spectrum of tasks. We make the Orion-14B model family and its
associated code publicly accessible https://github.com/OrionStarAI/Orion,
aiming to inspire future research and practical applications in the field.