FuxiTranyu: Um Modelo de Linguagem Grande Multilíngue Treinado com Dados Balanceados
FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data
August 12, 2024
Autores: Haoran Sun, Renren Jin, Shaoyang Xu, Leiyu Pan, Supryadi, Menglong Cui, Jiangcun Du, Yikun Lei, Lei Yang, Ling Shi, Juesi Xiao, Shaolin Zhu, Deyi Xiong
cs.AI
Resumo
Grandes modelos de linguagem (LLMs) têm demonstrado habilidades em uma ampla gama de tarefas. No entanto, muitos LLMs apresentam discrepâncias significativas de desempenho entre idiomas de alta e baixa recursos. Para mitigar esse desafio, apresentamos o FuxiTranyu, um LLM multilíngue de código aberto, projetado para atender à necessidade da comunidade de pesquisa por capacidades multilíngues equilibradas e de alto desempenho. O modelo base FuxiTranyu-8B, com 8 bilhões de parâmetros, é treinado do zero em um repositório de dados multilíngue meticulosamente equilibrado, contendo 600 bilhões de tokens abrangendo 43 idiomas naturais e 16 idiomas de programação. Além do modelo base, também desenvolvemos dois modelos ajustados por instrução: o FuxiTranyu-8B-SFT, ajustado finamente em um conjunto de dados de instruções multilíngues diversificado, e o FuxiTranyu-8B-DPO, refinado ainda mais com DPO em um conjunto de dados de preferências para melhorar a capacidade de alinhamento. Experimentos extensos em uma ampla gama de benchmarks multilíngues demonstram o desempenho competitivo do FuxiTranyu em comparação com LLMs multilíngues existentes, como BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B e Mistral-7B-Instruct. Análises de interpretabilidade tanto no nível de neurônio quanto de representação sugerem que o FuxiTranyu é capaz de aprender representações multilíngues consistentes entre diferentes idiomas. Para promover pesquisas adicionais em LLMs multilíngues e seus mecanismos de funcionamento, disponibilizamos os modelos base e ajustados por instrução do FuxiTranyu, juntamente com 58 pontos de verificação de pré-treinamento, no HuggingFace e no Github.
English
Large language models (LLMs) have demonstrated prowess in a wide range of
tasks. However, many LLMs exhibit significant performance discrepancies between
high- and low-resource languages. To mitigate this challenge, we present
FuxiTranyu, an open-source multilingual LLM, which is designed to satisfy the
need of the research community for balanced and high-performing multilingual
capabilities. FuxiTranyu-8B, the base model with 8 billion parameters, is
trained from scratch on a meticulously balanced multilingual data repository
that contains 600 billion tokens covering 43 natural languages and 16
programming languages. In addition to the base model, we also develop two
instruction-tuned models: FuxiTranyu-8B-SFT that is fine-tuned on a diverse
multilingual instruction dataset, and FuxiTranyu-8B-DPO that is further refined
with DPO on a preference dataset for enhanced alignment ability. Extensive
experiments on a wide range of multilingual benchmarks demonstrate the
competitive performance of FuxiTranyu against existing multilingual LLMs, e.g.,
BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B and Mistral-7B-Instruct. Interpretability
analyses at both the neuron and representation level suggest that FuxiTranyu is
able to learn consistent multilingual representations across different
languages. To promote further research into multilingual LLMs and their working
mechanisms, we release both the base and instruction-tuned FuxiTranyu models
together with 58 pretraining checkpoints at HuggingFace and Github.Summary
AI-Generated Summary