BigTrans : Amélioration des grands modèles de langage avec des capacités de traduction multilingue pour plus de 100 langues

Résumé

Les grands modèles de langage (LLM) démontrent des performances prometteuses en traduction entre diverses langues naturelles. Cependant, de nombreux LLM, en particulier ceux en open source comme BLOOM et LLaMA, sont principalement axés sur l'anglais et ne prennent en charge que quelques dizaines de langues naturelles, ce qui limite l'exploration de leur potentiel en traduction linguistique. Dans ce travail, nous présentons BigTrans, qui adapte LLaMA, initialement conçu pour 20 langues, en lui ajoutant des capacités de traduction multilingue pour plus de 100 langues. BigTrans est construit sur LLaMA-13B et optimisé en trois étapes. Premièrement, nous poursuivons l'entraînement de LLaMA avec un vaste ensemble de données monolingues en chinois. Deuxièmement, nous continuons l'entraînement du modèle avec un large corpus parallèle couvrant 102 langues naturelles. Troisièmement, nous ajustons le modèle de base par instruction avec des directives de traduction multilingue, aboutissant ainsi à notre modèle BigTrans. Les expériences préliminaires en traduction multilingue montrent que BigTrans se compare favorablement à ChatGPT et Google Translate pour de nombreuses langues, et surpasse même ChatGPT pour 8 paires de langues. Nous rendons public le modèle BigTrans dans l'espoir qu'il puisse faire progresser la recherche dans ce domaine.

English

Large language models (LLMs) demonstrate promising translation performance among various natural languages. However, many LLMs especially the open-sourced ones, such as BLOOM and LLaMA, are English-dominant and support only dozens of natural languages, making the potential of LLMs on language translation less explored. In this work, we present BigTrans which adapts LLaMA that covers only 20 languages and enhances it with multilingual translation capability on more than 100 languages. BigTrans is built upon LLaMA-13B and it is optimized in three steps. First, we continue training LLaMA with massive Chinese monolingual data. Second, we continue training the model with a large-scale parallel dataset that covers 102 natural languages. Third, we instruct-tune the foundation model with multilingual translation instructions, leading to our BigTrans model. The preliminary experiments on multilingual translation show that BigTrans performs comparably with ChatGPT and Google Translate in many languages and even outperforms ChatGPT in 8 language pairs. We release the BigTrans model and hope it can advance the research progress.

BigTrans : Amélioration des grands modèles de langage avec des capacités de traduction multilingue pour plus de 100 langues

BigTrans: Augmenting Large Language Models with Multilingual Translation Capability over 100 Languages

Résumé

Support