Orion-14B: Многоязычные большие языковые модели с открытым исходным кодом

Аннотация

В данном исследовании мы представляем Orion-14B — семейство многоязычных больших языковых моделей с 14 миллиардами параметров. Мы используем подход к планированию данных для обучения базовой модели на разнообразном корпусе из 2,5 триллионов токенов, включающем тексты на английском, китайском, японском, корейском и других языках. Кроме того, мы дообучили серию моделей, адаптированных для задач диалоговых систем и других специфических применений. Результаты оценки показывают, что Orion-14B достигает передовых показателей в широком спектре задач. Мы делаем семейство моделей Orion-14B и связанный с ним код общедоступными по адресу https://github.com/OrionStarAI/Orion, стремясь вдохновить будущие исследования и практические применения в этой области.

English

In this study, we introduce Orion-14B, a collection of multilingual large language models with 14 billion parameters. We utilize a data scheduling approach to train a foundational model on a diverse corpus of 2.5 trillion tokens, sourced from texts in English, Chinese, Japanese, Korean, and other languages. Additionally, we fine-tuned a series of models tailored for conversational applications and other specific use cases. Our evaluation results demonstrate that Orion-14B achieves state-of-the-art performance across a broad spectrum of tasks. We make the Orion-14B model family and its associated code publicly accessible https://github.com/OrionStarAI/Orion, aiming to inspire future research and practical applications in the field.

Orion-14B: Многоязычные большие языковые модели с открытым исходным кодом

Orion-14B: Open-source Multilingual Large Language Models

Аннотация

Support