ChatPaper.aiChatPaper

FuxiTranyu: Ein mehrsprachiges großes Sprachmodell, das mit ausgewogenen Daten trainiert wurde.

FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data

August 12, 2024
Autoren: Haoran Sun, Renren Jin, Shaoyang Xu, Leiyu Pan, Supryadi, Menglong Cui, Jiangcun Du, Yikun Lei, Lei Yang, Ling Shi, Juesi Xiao, Shaolin Zhu, Deyi Xiong
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben ihre Fähigkeiten in einer Vielzahl von Aufgaben unter Beweis gestellt. Allerdings zeigen viele LLMs signifikante Leistungsunterschiede zwischen hoch- und gering ressourcenreichen Sprachen. Um diese Herausforderung zu mildern, präsentieren wir FuxiTranyu, ein Open-Source mehrsprachiges LLM, das darauf ausgelegt ist, den Bedarf der Forschungsgemeinschaft an ausgewogenen und leistungsstarken mehrsprachigen Fähigkeiten zu erfüllen. FuxiTranyu-8B, das Basismodell mit 8 Milliarden Parametern, wird von Grund auf auf einem sorgfältig ausbalancierten mehrsprachigen Datensatz trainiert, der 600 Milliarden Tokens aus 43 natürlichen Sprachen und 16 Programmiersprachen umfasst. Neben dem Basismodell entwickeln wir auch zwei anweisungsgesteuerte Modelle: FuxiTranyu-8B-SFT, das auf einem vielfältigen mehrsprachigen Anweisungsdatensatz feinabgestimmt ist, und FuxiTranyu-8B-DPO, das mit DPO auf einem Präferenzdatensatz weiter verfeinert wird, um die Ausrichtungsfähigkeit zu verbessern. Umfangreiche Experimente an einer Vielzahl von mehrsprachigen Benchmarks zeigen die Wettbewerbsfähigkeit von FuxiTranyu gegenüber bestehenden mehrsprachigen LLMs wie z.B. BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B und Mistral-7B-Instruct. Interpretationsanalysen auf Neuronen- und Repräsentationsebene legen nahe, dass FuxiTranyu in der Lage ist, konsistente mehrsprachige Repräsentationen über verschiedene Sprachen hinweg zu erlernen. Um weitere Forschung zu mehrsprachigen LLMs und deren Funktionsmechanismen zu fördern, veröffentlichen wir sowohl die Basismodelle als auch die anweisungsgesteuerten FuxiTranyu-Modelle zusammen mit 58 Vortrainings-Checkpoints bei HuggingFace und Github.
English
Large language models (LLMs) have demonstrated prowess in a wide range of tasks. However, many LLMs exhibit significant performance discrepancies between high- and low-resource languages. To mitigate this challenge, we present FuxiTranyu, an open-source multilingual LLM, which is designed to satisfy the need of the research community for balanced and high-performing multilingual capabilities. FuxiTranyu-8B, the base model with 8 billion parameters, is trained from scratch on a meticulously balanced multilingual data repository that contains 600 billion tokens covering 43 natural languages and 16 programming languages. In addition to the base model, we also develop two instruction-tuned models: FuxiTranyu-8B-SFT that is fine-tuned on a diverse multilingual instruction dataset, and FuxiTranyu-8B-DPO that is further refined with DPO on a preference dataset for enhanced alignment ability. Extensive experiments on a wide range of multilingual benchmarks demonstrate the competitive performance of FuxiTranyu against existing multilingual LLMs, e.g., BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B and Mistral-7B-Instruct. Interpretability analyses at both the neuron and representation level suggest that FuxiTranyu is able to learn consistent multilingual representations across different languages. To promote further research into multilingual LLMs and their working mechanisms, we release both the base and instruction-tuned FuxiTranyu models together with 58 pretraining checkpoints at HuggingFace and Github.

Summary

AI-Generated Summary

PDF101November 28, 2024