ChatPaper.aiChatPaper

FuxiTranyu: Een meertalig groot taalmodel getraind met gebalanceerde gegevens

FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data

August 12, 2024
Auteurs: Haoran Sun, Renren Jin, Shaoyang Xu, Leiyu Pan, Supryadi, Menglong Cui, Jiangcun Du, Yikun Lei, Lei Yang, Ling Shi, Juesi Xiao, Shaolin Zhu, Deyi Xiong
cs.AI

Samenvatting

Grote taalmodellen (LLMs) hebben hun vaardigheden bewezen in een breed scala aan taken. Veel LLMs vertonen echter aanzienlijke prestatieverschillen tussen hoog- en laag-resourcetalen. Om deze uitdaging te mitigeren, presenteren we FuxiTranyu, een open-source meertalig LLM, dat is ontworpen om te voldoen aan de behoefte van de onderzoeksgemeenschap aan gebalanceerde en hoogpresterende meertalige capaciteiten. FuxiTranyu-8B, het basismodel met 8 miljard parameters, is vanaf nul getraind op een zorgvuldig gebalanceerde meertalige dataverzameling die 600 miljard tokens bevat, afkomstig uit 43 natuurlijke talen en 16 programmeertalen. Naast het basismodel ontwikkelen we ook twee instructie-afgestemde modellen: FuxiTranyu-8B-SFT, dat is verfijnd op een diverse meertalige instructiedataset, en FuxiTranyu-8B-DPO, dat verder is verfijnd met DPO op een voorkeursdataset voor een verbeterde uitlijningscapaciteit. Uitgebreide experimenten op een breed scala aan meertalige benchmarks tonen de competitieve prestaties van FuxiTranyu aan in vergelijking met bestaande meertalige LLMs, zoals BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B en Mistral-7B-Instruct. Interpretatieanalyses op zowel het neuron- als representatieniveau suggereren dat FuxiTranyu consistente meertalige representaties kan leren over verschillende talen heen. Om verder onderzoek naar meertalige LLMs en hun werkingsmechanismen te bevorderen, geven we zowel het basis- als de instructie-afgestemde FuxiTranyu-modellen vrij, samen met 58 pretrainingscheckpoints op HuggingFace en Github.
English
Large language models (LLMs) have demonstrated prowess in a wide range of tasks. However, many LLMs exhibit significant performance discrepancies between high- and low-resource languages. To mitigate this challenge, we present FuxiTranyu, an open-source multilingual LLM, which is designed to satisfy the need of the research community for balanced and high-performing multilingual capabilities. FuxiTranyu-8B, the base model with 8 billion parameters, is trained from scratch on a meticulously balanced multilingual data repository that contains 600 billion tokens covering 43 natural languages and 16 programming languages. In addition to the base model, we also develop two instruction-tuned models: FuxiTranyu-8B-SFT that is fine-tuned on a diverse multilingual instruction dataset, and FuxiTranyu-8B-DPO that is further refined with DPO on a preference dataset for enhanced alignment ability. Extensive experiments on a wide range of multilingual benchmarks demonstrate the competitive performance of FuxiTranyu against existing multilingual LLMs, e.g., BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B and Mistral-7B-Instruct. Interpretability analyses at both the neuron and representation level suggest that FuxiTranyu is able to learn consistent multilingual representations across different languages. To promote further research into multilingual LLMs and their working mechanisms, we release both the base and instruction-tuned FuxiTranyu models together with 58 pretraining checkpoints at HuggingFace and Github.
PDF101November 28, 2024