FuxiTranyu: Un modelo de lenguaje grande multilingüe entrenado con datos equilibrados
FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data
August 12, 2024
Autores: Haoran Sun, Renren Jin, Shaoyang Xu, Leiyu Pan, Supryadi, Menglong Cui, Jiangcun Du, Yikun Lei, Lei Yang, Ling Shi, Juesi Xiao, Shaolin Zhu, Deyi Xiong
cs.AI
Resumen
Los modelos de lenguaje grandes (LLMs) han demostrado habilidades en una amplia gama de tareas. Sin embargo, muchos LLMs muestran discrepancias significativas de rendimiento entre idiomas de alto y bajo recurso. Para mitigar este desafío, presentamos FuxiTranyu, un LLM multilingüe de código abierto, diseñado para satisfacer la necesidad de la comunidad investigadora de capacidades multilingües equilibradas y de alto rendimiento. FuxiTranyu-8B, el modelo base con 8 mil millones de parámetros, se entrena desde cero en un repositorio de datos multilingüe meticulosamente equilibrado que contiene 600 mil millones de tokens que abarcan 43 idiomas naturales y 16 lenguajes de programación. Además del modelo base, también desarrollamos dos modelos ajustados a instrucciones: FuxiTranyu-8B-SFT, que se ajusta finamente en un conjunto de datos de instrucciones multilingüe diverso, y FuxiTranyu-8B-DPO, que se perfecciona aún más con DPO en un conjunto de datos de preferencias para una capacidad de alineación mejorada. Experimentos extensos en una amplia gama de pruebas multilingües demuestran el rendimiento competitivo de FuxiTranyu frente a LLMs multilingües existentes, como BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B y Mistral-7B-Instruct. Los análisis de interpretabilidad a nivel de neurona y representación sugieren que FuxiTranyu es capaz de aprender representaciones multilingües consistentes en diferentes idiomas. Para promover una mayor investigación en LLMs multilingües y sus mecanismos de funcionamiento, lanzamos tanto los modelos base como los ajustados a instrucciones de FuxiTranyu junto con 58 puntos de control de preentrenamiento en HuggingFace y Github.
English
Large language models (LLMs) have demonstrated prowess in a wide range of
tasks. However, many LLMs exhibit significant performance discrepancies between
high- and low-resource languages. To mitigate this challenge, we present
FuxiTranyu, an open-source multilingual LLM, which is designed to satisfy the
need of the research community for balanced and high-performing multilingual
capabilities. FuxiTranyu-8B, the base model with 8 billion parameters, is
trained from scratch on a meticulously balanced multilingual data repository
that contains 600 billion tokens covering 43 natural languages and 16
programming languages. In addition to the base model, we also develop two
instruction-tuned models: FuxiTranyu-8B-SFT that is fine-tuned on a diverse
multilingual instruction dataset, and FuxiTranyu-8B-DPO that is further refined
with DPO on a preference dataset for enhanced alignment ability. Extensive
experiments on a wide range of multilingual benchmarks demonstrate the
competitive performance of FuxiTranyu against existing multilingual LLMs, e.g.,
BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B and Mistral-7B-Instruct. Interpretability
analyses at both the neuron and representation level suggest that FuxiTranyu is
able to learn consistent multilingual representations across different
languages. To promote further research into multilingual LLMs and their working
mechanisms, we release both the base and instruction-tuned FuxiTranyu models
together with 58 pretraining checkpoints at HuggingFace and Github.Summary
AI-Generated Summary