LLaMAX: Ampliando los Horizontes Lingüísticos de LLM Mejorando las Capacidades de Traducción Más Allá de 100 Idiomas
LLaMAX: Scaling Linguistic Horizons of LLM by Enhancing Translation Capabilities Beyond 100 Languages
July 8, 2024
Autores: Yinquan Lu, Wenhao Zhu, Lei Li, Yu Qiao, Fei Yuan
cs.AI
Resumen
Los Modelos de Lenguaje Grandes (LLMs) demuestran capacidades de traducción notables en tareas de lenguajes de alto recurso, sin embargo, su rendimiento en lenguajes de bajo recurso se ve obstaculizado por la insuficiencia de datos multilingües durante el pre-entrenamiento. Para abordar esto, dedicamos 35,000 horas de GPU A100-SXM4-80GB en llevar a cabo un extenso pre-entrenamiento continuo multilingüe en los modelos de la serie LLaMA, permitiendo soporte de traducción en más de 100 idiomas. A través de un análisis exhaustivo de estrategias de entrenamiento, como la expansión de vocabulario y la aumentación de datos, desarrollamos LLaMAX. Notablemente, sin sacrificar su capacidad de generalización, LLaMAX logra un rendimiento de traducción significativamente mayor en comparación con LLMs de código abierto existentes (por más de 10 puntos spBLEU) y se desempeña al nivel del modelo de traducción especializado (M2M-100-12B) en el benchmark Flores-101. Experimentos extensos indican que LLaMAX puede servir como un modelo base multilingüe robusto. El código \url{https://github.com/CONE-MT/LLaMAX/.} y los modelos \url{https://huggingface.co/LLaMAX/.} están disponibles públicamente.
English
Large Language Models~(LLMs) demonstrate remarkable translation capabilities
in high-resource language tasks, yet their performance in low-resource
languages is hindered by insufficient multilingual data during pre-training. To
address this, we dedicate 35,000 A100-SXM4-80GB GPU hours in conducting
extensive multilingual continual pre-training on the LLaMA series models,
enabling translation support across more than 100 languages. Through a
comprehensive analysis of training strategies, such as vocabulary expansion and
data augmentation, we develop LLaMAX. Remarkably, without sacrificing its
generalization ability, LLaMAX achieves significantly higher translation
performance compared to existing open-source LLMs~(by more than 10 spBLEU
points) and performs on-par with specialized translation model~(M2M-100-12B) on
the Flores-101 benchmark. Extensive experiments indicate that LLaMAX can serve
as a robust multilingual foundation model. The
code~\url{https://github.com/CONE-MT/LLaMAX/.} and
models~\url{https://huggingface.co/LLaMAX/.} are publicly available.Summary
AI-Generated Summary