ChatPaper.aiChatPaper

Orion-14B: Modelos de Lenguaje Grande Multilingües de Código Abierto

Orion-14B: Open-source Multilingual Large Language Models

January 20, 2024
Autores: Du Chen, Yi Huang, Xiaopu Li, Yongqiang Li, Yongqiang Liu, Haihui Pan, Leichao Xu, Dacheng Zhang, Zhipeng Zhang, Kun Han
cs.AI

Resumen

En este estudio, presentamos Orion-14B, una colección de modelos de lenguaje grande multilingüe con 14 mil millones de parámetros. Utilizamos un enfoque de programación de datos para entrenar un modelo base en un corpus diverso de 2.5 billones de tokens, obtenidos de textos en inglés, chino, japonés, coreano y otros idiomas. Además, ajustamos una serie de modelos específicamente diseñados para aplicaciones conversacionales y otros casos de uso particulares. Nuestros resultados de evaluación demuestran que Orion-14B alcanza un rendimiento de vanguardia en una amplia gama de tareas. Hacemos pública la familia de modelos Orion-14B y su código asociado en https://github.com/OrionStarAI/Orion, con el objetivo de inspirar futuras investigaciones y aplicaciones prácticas en el campo.
English
In this study, we introduce Orion-14B, a collection of multilingual large language models with 14 billion parameters. We utilize a data scheduling approach to train a foundational model on a diverse corpus of 2.5 trillion tokens, sourced from texts in English, Chinese, Japanese, Korean, and other languages. Additionally, we fine-tuned a series of models tailored for conversational applications and other specific use cases. Our evaluation results demonstrate that Orion-14B achieves state-of-the-art performance across a broad spectrum of tasks. We make the Orion-14B model family and its associated code publicly accessible https://github.com/OrionStarAI/Orion, aiming to inspire future research and practical applications in the field.
PDF142December 15, 2024