FuxiTranyu : Un modèle de langage multilingue de grande taille entraîné avec des données équilibrées
FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data
August 12, 2024
Auteurs: Haoran Sun, Renren Jin, Shaoyang Xu, Leiyu Pan, Supryadi, Menglong Cui, Jiangcun Du, Yikun Lei, Lei Yang, Ling Shi, Juesi Xiao, Shaolin Zhu, Deyi Xiong
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont démontré leur prouesse dans un large éventail de tâches. Cependant, de nombreux LLMs présentent des écarts de performance significatifs entre les langues à ressources élevées et celles à ressources limitées. Pour atténuer ce défi, nous présentons FuxiTranyu, un LLM multilingue open-source, conçu pour répondre aux besoins de la communauté de recherche en matière de capacités multilingues équilibrées et performantes. FuxiTranyu-8B, le modèle de base avec 8 milliards de paramètres, est entraîné à partir de zéro sur un référentiel de données multilingues soigneusement équilibré contenant 600 milliards de tokens couvrant 43 langues naturelles et 16 langages de programmation. En plus du modèle de base, nous développons également deux modèles ajustés par instruction : FuxiTranyu-8B-SFT, affiné sur un ensemble de données d'instructions multilingues diversifié, et FuxiTranyu-8B-DPO, encore amélioré avec DPO sur un ensemble de données de préférences pour une meilleure capacité d'alignement. Des expériences approfondies sur une large gamme de benchmarks multilingues démontrent la performance compétitive de FuxiTranyu par rapport aux LLMs multilingues existants, tels que BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B et Mistral-7B-Instruct. Les analyses d'interprétabilité au niveau des neurones et des représentations suggèrent que FuxiTranyu est capable d'apprendre des représentations multilingues cohérentes à travers différentes langues. Pour promouvoir davantage de recherches sur les LLMs multilingues et leurs mécanismes de fonctionnement, nous publions à la fois les modèles de base et ajustés par instruction de FuxiTranyu, ainsi que 58 points de contrôle de pré-entraînement sur HuggingFace et Github.
English
Large language models (LLMs) have demonstrated prowess in a wide range of
tasks. However, many LLMs exhibit significant performance discrepancies between
high- and low-resource languages. To mitigate this challenge, we present
FuxiTranyu, an open-source multilingual LLM, which is designed to satisfy the
need of the research community for balanced and high-performing multilingual
capabilities. FuxiTranyu-8B, the base model with 8 billion parameters, is
trained from scratch on a meticulously balanced multilingual data repository
that contains 600 billion tokens covering 43 natural languages and 16
programming languages. In addition to the base model, we also develop two
instruction-tuned models: FuxiTranyu-8B-SFT that is fine-tuned on a diverse
multilingual instruction dataset, and FuxiTranyu-8B-DPO that is further refined
with DPO on a preference dataset for enhanced alignment ability. Extensive
experiments on a wide range of multilingual benchmarks demonstrate the
competitive performance of FuxiTranyu against existing multilingual LLMs, e.g.,
BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B and Mistral-7B-Instruct. Interpretability
analyses at both the neuron and representation level suggest that FuxiTranyu is
able to learn consistent multilingual representations across different
languages. To promote further research into multilingual LLMs and their working
mechanisms, we release both the base and instruction-tuned FuxiTranyu models
together with 58 pretraining checkpoints at HuggingFace and Github.Summary
AI-Generated Summary