LLaMAX: Ampliando los Horizontes Lingüísticos de LLM Mejorando las Capacidades de Traducción Más Allá de 100 Idiomas

Resumen

Los Modelos de Lenguaje Grandes (LLMs) demuestran capacidades de traducción notables en tareas de lenguajes de alto recurso, sin embargo, su rendimiento en lenguajes de bajo recurso se ve obstaculizado por la insuficiencia de datos multilingües durante el pre-entrenamiento. Para abordar esto, dedicamos 35,000 horas de GPU A100-SXM4-80GB en llevar a cabo un extenso pre-entrenamiento continuo multilingüe en los modelos de la serie LLaMA, permitiendo soporte de traducción en más de 100 idiomas. A través de un análisis exhaustivo de estrategias de entrenamiento, como la expansión de vocabulario y la aumentación de datos, desarrollamos LLaMAX. Notablemente, sin sacrificar su capacidad de generalización, LLaMAX logra un rendimiento de traducción significativamente mayor en comparación con LLMs de código abierto existentes (por más de 10 puntos spBLEU) y se desempeña al nivel del modelo de traducción especializado (M2M-100-12B) en el benchmark Flores-101. Experimentos extensos indican que LLaMAX puede servir como un modelo base multilingüe robusto. El código \url{https://github.com/CONE-MT/LLaMAX/.} y los modelos \url{https://huggingface.co/LLaMAX/.} están disponibles públicamente.

English

Large Language Models~(LLMs) demonstrate remarkable translation capabilities in high-resource language tasks, yet their performance in low-resource languages is hindered by insufficient multilingual data during pre-training. To address this, we dedicate 35,000 A100-SXM4-80GB GPU hours in conducting extensive multilingual continual pre-training on the LLaMA series models, enabling translation support across more than 100 languages. Through a comprehensive analysis of training strategies, such as vocabulary expansion and data augmentation, we develop LLaMAX. Remarkably, without sacrificing its generalization ability, LLaMAX achieves significantly higher translation performance compared to existing open-source LLMs~(by more than 10 spBLEU points) and performs on-par with specialized translation model~(M2M-100-12B) on the Flores-101 benchmark. Extensive experiments indicate that LLaMAX can serve as a robust multilingual foundation model. The code~\url{https://github.com/CONE-MT/LLaMAX/.} and models~\url{https://huggingface.co/LLaMAX/.} are publicly available.

LLaMAX: Ampliando los Horizontes Lingüísticos de LLM Mejorando las Capacidades de Traducción Más Allá de 100 Idiomas

LLaMAX: Scaling Linguistic Horizons of LLM by Enhancing Translation Capabilities Beyond 100 Languages

Resumen

Support