FuxiTranyu: Мультиязычная крупномасштабная модель языка, обученная на сбалансированных данных
FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data
August 12, 2024
Авторы: Haoran Sun, Renren Jin, Shaoyang Xu, Leiyu Pan, Supryadi, Menglong Cui, Jiangcun Du, Yikun Lei, Lei Yang, Ling Shi, Juesi Xiao, Shaolin Zhu, Deyi Xiong
cs.AI
Аннотация
Большие языковые модели (LLM) продемонстрировали мастерство в широком спектре задач. Однако многие LLM показывают значительные различия в производительности между языками с высоким и низким уровнем ресурсов. Для устранения этого вызова мы представляем FuxiTranyu, мультиязычную LLM с открытым исходным кодом, разработанную для удовлетворения потребностей исследовательского сообщества в сбалансированных и высокопроизводительных мультиязычных возможностях. Базовая модель FuxiTranyu-8B с 8 миллиардами параметров обучается с нуля на тщательно сбалансированном мультиязычном репозитории данных, содержащем 600 миллиардов токенов, охватывающих 43 естественных языка и 16 языков программирования. Помимо базовой модели, мы также разрабатываем две модели, настроенные на инструкции: FuxiTranyu-8B-SFT, которая донастраивается на разнообразном мультиязычном наборе инструкций, и FuxiTranyu-8B-DPO, которая дополнительно улучшается с помощью DPO на наборе предпочтений для повышения способности к выравниванию. Обширные эксперименты на широком спектре мультиязычных бенчмарков демонстрируют конкурентоспособную производительность FuxiTranyu по сравнению с существующими мультиязычными LLM, например, BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B и Mistral-7B-Instruct. Анализы интерпретируемости как на уровне нейронов, так и на уровне представлений показывают, что FuxiTranyu способна учиться согласованным мультиязычным представлениям на разных языках. Для стимулирования дальнейших исследований в области мультиязычных LLM и их рабочих механизмов мы выпускаем как базовые, так и настроенные на инструкции модели FuxiTranyu вместе с 58 контрольными точками предварительного обучения на платформах HuggingFace и Github.
English
Large language models (LLMs) have demonstrated prowess in a wide range of
tasks. However, many LLMs exhibit significant performance discrepancies between
high- and low-resource languages. To mitigate this challenge, we present
FuxiTranyu, an open-source multilingual LLM, which is designed to satisfy the
need of the research community for balanced and high-performing multilingual
capabilities. FuxiTranyu-8B, the base model with 8 billion parameters, is
trained from scratch on a meticulously balanced multilingual data repository
that contains 600 billion tokens covering 43 natural languages and 16
programming languages. In addition to the base model, we also develop two
instruction-tuned models: FuxiTranyu-8B-SFT that is fine-tuned on a diverse
multilingual instruction dataset, and FuxiTranyu-8B-DPO that is further refined
with DPO on a preference dataset for enhanced alignment ability. Extensive
experiments on a wide range of multilingual benchmarks demonstrate the
competitive performance of FuxiTranyu against existing multilingual LLMs, e.g.,
BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B and Mistral-7B-Instruct. Interpretability
analyses at both the neuron and representation level suggest that FuxiTranyu is
able to learn consistent multilingual representations across different
languages. To promote further research into multilingual LLMs and their working
mechanisms, we release both the base and instruction-tuned FuxiTranyu models
together with 58 pretraining checkpoints at HuggingFace and Github.Summary
AI-Generated Summary