FuxiTranyu: Un modelo de lenguaje grande multilingüe entrenado con datos equilibrados

Resumen

Los modelos de lenguaje grandes (LLMs) han demostrado habilidades en una amplia gama de tareas. Sin embargo, muchos LLMs muestran discrepancias significativas de rendimiento entre idiomas de alto y bajo recurso. Para mitigar este desafío, presentamos FuxiTranyu, un LLM multilingüe de código abierto, diseñado para satisfacer la necesidad de la comunidad investigadora de capacidades multilingües equilibradas y de alto rendimiento. FuxiTranyu-8B, el modelo base con 8 mil millones de parámetros, se entrena desde cero en un repositorio de datos multilingüe meticulosamente equilibrado que contiene 600 mil millones de tokens que abarcan 43 idiomas naturales y 16 lenguajes de programación. Además del modelo base, también desarrollamos dos modelos ajustados a instrucciones: FuxiTranyu-8B-SFT, que se ajusta finamente en un conjunto de datos de instrucciones multilingüe diverso, y FuxiTranyu-8B-DPO, que se perfecciona aún más con DPO en un conjunto de datos de preferencias para una capacidad de alineación mejorada. Experimentos extensos en una amplia gama de pruebas multilingües demuestran el rendimiento competitivo de FuxiTranyu frente a LLMs multilingües existentes, como BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B y Mistral-7B-Instruct. Los análisis de interpretabilidad a nivel de neurona y representación sugieren que FuxiTranyu es capaz de aprender representaciones multilingües consistentes en diferentes idiomas. Para promover una mayor investigación en LLMs multilingües y sus mecanismos de funcionamiento, lanzamos tanto los modelos base como los ajustados a instrucciones de FuxiTranyu junto con 58 puntos de control de preentrenamiento en HuggingFace y Github.

English

Large language models (LLMs) have demonstrated prowess in a wide range of tasks. However, many LLMs exhibit significant performance discrepancies between high- and low-resource languages. To mitigate this challenge, we present FuxiTranyu, an open-source multilingual LLM, which is designed to satisfy the need of the research community for balanced and high-performing multilingual capabilities. FuxiTranyu-8B, the base model with 8 billion parameters, is trained from scratch on a meticulously balanced multilingual data repository that contains 600 billion tokens covering 43 natural languages and 16 programming languages. In addition to the base model, we also develop two instruction-tuned models: FuxiTranyu-8B-SFT that is fine-tuned on a diverse multilingual instruction dataset, and FuxiTranyu-8B-DPO that is further refined with DPO on a preference dataset for enhanced alignment ability. Extensive experiments on a wide range of multilingual benchmarks demonstrate the competitive performance of FuxiTranyu against existing multilingual LLMs, e.g., BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B and Mistral-7B-Instruct. Interpretability analyses at both the neuron and representation level suggest that FuxiTranyu is able to learn consistent multilingual representations across different languages. To promote further research into multilingual LLMs and their working mechanisms, we release both the base and instruction-tuned FuxiTranyu models together with 58 pretraining checkpoints at HuggingFace and Github.

FuxiTranyu: Un modelo de lenguaje grande multilingüe entrenado con datos equilibrados

FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data

Resumen

Support