ChatPaper.aiChatPaper

LLaMAX: Ampliando os Horizontes Linguísticos do LLM ao Aprimorar as Capacidades de Tradução Além de 100 Idiomas

LLaMAX: Scaling Linguistic Horizons of LLM by Enhancing Translation Capabilities Beyond 100 Languages

July 8, 2024
Autores: Yinquan Lu, Wenhao Zhu, Lei Li, Yu Qiao, Fei Yuan
cs.AI

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) demonstram notáveis capacidades de tradução em tarefas linguísticas de alto recurso, no entanto, seu desempenho em idiomas de baixo recurso é prejudicado pela falta de dados multilíngues suficientes durante o pré-treinamento. Para lidar com isso, dedicamos 35.000 horas de GPU A100-SXM4-80GB para realizar um extenso pré-treinamento contínuo multilíngue nos modelos da série LLaMA, possibilitando suporte à tradução em mais de 100 idiomas. Através de uma análise abrangente de estratégias de treinamento, como expansão de vocabulário e aumento de dados, desenvolvemos o LLaMAX. Notavelmente, sem sacrificar sua capacidade de generalização, o LLaMAX alcança um desempenho de tradução significativamente superior em comparação com LLMs de código aberto existentes (em mais de 10 pontos spBLEU) e se equipara ao modelo de tradução especializado M2M-100-12B no benchmark Flores-101. Experimentos extensivos indicam que o LLaMAX pode servir como um modelo de base multilíngue robusto. O código \url{https://github.com/CONE-MT/LLaMAX/.} e os modelos \url{https://huggingface.co/LLaMAX/.} estão disponíveis publicamente.
English
Large Language Models~(LLMs) demonstrate remarkable translation capabilities in high-resource language tasks, yet their performance in low-resource languages is hindered by insufficient multilingual data during pre-training. To address this, we dedicate 35,000 A100-SXM4-80GB GPU hours in conducting extensive multilingual continual pre-training on the LLaMA series models, enabling translation support across more than 100 languages. Through a comprehensive analysis of training strategies, such as vocabulary expansion and data augmentation, we develop LLaMAX. Remarkably, without sacrificing its generalization ability, LLaMAX achieves significantly higher translation performance compared to existing open-source LLMs~(by more than 10 spBLEU points) and performs on-par with specialized translation model~(M2M-100-12B) on the Flores-101 benchmark. Extensive experiments indicate that LLaMAX can serve as a robust multilingual foundation model. The code~\url{https://github.com/CONE-MT/LLaMAX/.} and models~\url{https://huggingface.co/LLaMAX/.} are publicly available.
PDF382November 28, 2024