FuxiTranyu: Un Modello Linguistico Multilingue di Grande Scala Addestrato con Dati Bilanciati
FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data
August 12, 2024
Autori: Haoran Sun, Renren Jin, Shaoyang Xu, Leiyu Pan, Supryadi, Menglong Cui, Jiangcun Du, Yikun Lei, Lei Yang, Ling Shi, Juesi Xiao, Shaolin Zhu, Deyi Xiong
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno dimostrato competenza in un'ampia gamma di compiti. Tuttavia, molti LLM presentano significative discrepanze di prestazioni tra lingue ad alta e bassa risorsa. Per mitigare questa sfida, presentiamo FuxiTranyu, un LLM multilingue open-source, progettato per soddisfare le esigenze della comunità di ricerca in termini di capacità multilingue bilanciate e ad alte prestazioni. FuxiTranyu-8B, il modello base con 8 miliardi di parametri, è addestrato da zero su un repository di dati multilingue meticolosamente bilanciato che contiene 600 miliardi di token, coprendo 43 lingue naturali e 16 linguaggi di programmazione. Oltre al modello base, sviluppiamo anche due modelli ottimizzati per le istruzioni: FuxiTranyu-8B-SFT, che è fine-tuned su un dataset multilingue di istruzioni diversificato, e FuxiTranyu-8B-DPO, ulteriormente raffinato con DPO su un dataset di preferenze per migliorare la capacità di allineamento. Esperimenti estesi su una vasta gamma di benchmark multilingue dimostrano le prestazioni competitive di FuxiTranyu rispetto agli LLM multilingue esistenti, come BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B e Mistral-7B-Instruct. Analisi di interpretabilità sia a livello di neurone che di rappresentazione suggeriscono che FuxiTranyu è in grado di apprendere rappresentazioni multilingue coerenti tra diverse lingue. Per promuovere ulteriori ricerche sugli LLM multilingue e sui loro meccanismi di funzionamento, rilasciamo sia il modello base che quelli ottimizzati per le istruzioni di FuxiTranyu, insieme a 58 checkpoint di pre-addestramento su HuggingFace e Github.
English
Large language models (LLMs) have demonstrated prowess in a wide range of
tasks. However, many LLMs exhibit significant performance discrepancies between
high- and low-resource languages. To mitigate this challenge, we present
FuxiTranyu, an open-source multilingual LLM, which is designed to satisfy the
need of the research community for balanced and high-performing multilingual
capabilities. FuxiTranyu-8B, the base model with 8 billion parameters, is
trained from scratch on a meticulously balanced multilingual data repository
that contains 600 billion tokens covering 43 natural languages and 16
programming languages. In addition to the base model, we also develop two
instruction-tuned models: FuxiTranyu-8B-SFT that is fine-tuned on a diverse
multilingual instruction dataset, and FuxiTranyu-8B-DPO that is further refined
with DPO on a preference dataset for enhanced alignment ability. Extensive
experiments on a wide range of multilingual benchmarks demonstrate the
competitive performance of FuxiTranyu against existing multilingual LLMs, e.g.,
BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B and Mistral-7B-Instruct. Interpretability
analyses at both the neuron and representation level suggest that FuxiTranyu is
able to learn consistent multilingual representations across different
languages. To promote further research into multilingual LLMs and their working
mechanisms, we release both the base and instruction-tuned FuxiTranyu models
together with 58 pretraining checkpoints at HuggingFace and Github.