BigTrans : Amélioration des grands modèles de langage avec des capacités de traduction multilingue pour plus de 100 langues
BigTrans: Augmenting Large Language Models with Multilingual Translation Capability over 100 Languages
May 29, 2023
Auteurs: Wen Yang, Chong Li, Jiajun Zhang, Chengqing Zong
cs.AI
Résumé
Les grands modèles de langage (LLM) démontrent des performances prometteuses en traduction entre diverses langues naturelles. Cependant, de nombreux LLM, en particulier ceux en open source comme BLOOM et LLaMA, sont principalement axés sur l'anglais et ne prennent en charge que quelques dizaines de langues naturelles, ce qui limite l'exploration de leur potentiel en traduction linguistique. Dans ce travail, nous présentons BigTrans, qui adapte LLaMA, initialement conçu pour 20 langues, en lui ajoutant des capacités de traduction multilingue pour plus de 100 langues. BigTrans est construit sur LLaMA-13B et optimisé en trois étapes. Premièrement, nous poursuivons l'entraînement de LLaMA avec un vaste ensemble de données monolingues en chinois. Deuxièmement, nous continuons l'entraînement du modèle avec un large corpus parallèle couvrant 102 langues naturelles. Troisièmement, nous ajustons le modèle de base par instruction avec des directives de traduction multilingue, aboutissant ainsi à notre modèle BigTrans. Les expériences préliminaires en traduction multilingue montrent que BigTrans se compare favorablement à ChatGPT et Google Translate pour de nombreuses langues, et surpasse même ChatGPT pour 8 paires de langues. Nous rendons public le modèle BigTrans dans l'espoir qu'il puisse faire progresser la recherche dans ce domaine.
English
Large language models (LLMs) demonstrate promising translation performance
among various natural languages. However, many LLMs especially the open-sourced
ones, such as BLOOM and LLaMA, are English-dominant and support only dozens of
natural languages, making the potential of LLMs on language translation less
explored. In this work, we present BigTrans which adapts LLaMA that covers only
20 languages and enhances it with multilingual translation capability on more
than 100 languages. BigTrans is built upon LLaMA-13B and it is optimized in
three steps. First, we continue training LLaMA with massive Chinese monolingual
data. Second, we continue training the model with a large-scale parallel
dataset that covers 102 natural languages. Third, we instruct-tune the
foundation model with multilingual translation instructions, leading to our
BigTrans model. The preliminary experiments on multilingual translation show
that BigTrans performs comparably with ChatGPT and Google Translate in many
languages and even outperforms ChatGPT in 8 language pairs. We release the
BigTrans model and hope it can advance the research progress.