Marco-LLM : Relier les langues via un entraînement massif multilingue pour l'amélioration interlingue
Marco-LLM: Bridging Languages via Massive Multilingual Training for Cross-Lingual Enhancement
December 5, 2024
Auteurs: Lingfeng Ming, Bo Zeng, Chenyang Lyu, Tianqi Shi, Yu Zhao, Xue Yang, Yefeng Liu, Yiyu Wang, Linlong Xu, Yangyang Liu, Xiaohu Zhao, Hao Wang, Heng Liu, Hao Zhou, Huifeng Yin, Zifu Shang, Haijun Li, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI
Résumé
Les grands modèles de langage (LLM) ont réalisé des progrès remarquables ces dernières années; cependant, leur excellente performance est encore largement limitée aux grandes langues du monde, principalement l'anglais. De nombreux LLM continuent de rencontrer des défis avec les tâches multilingues, surtout lorsqu'il s'agit de langues à faibles ressources. Pour résoudre ce problème, nous avons introduit Marco-LLM : Entraînement massif multilingue pour l'amélioration interlingue des LLM. Nous avons collecté une quantité substantielle de données multilingues pour plusieurs langues à faibles ressources et mené une pré-formation continue approfondie en utilisant les modèles Qwen2. Cet effort a abouti à un LLM multilingue nommé Marco-LLM. À travers des évaluations approfondies sur divers bancs d'essai multilingues, incluant MMMLU, AGIEval, Belebele, Flores-200, XCOPA et bien d'autres, Marco-LLM a démontré des améliorations substantielles par rapport aux LLM de pointe. De plus, Marco-LLM a obtenu des améliorations substantielles dans les tâches de traduction automatique de n'importe quelle langue vers n'importe quelle langue, montrant ainsi l'efficacité de notre LLM multilingue. Marco-LLM est un LLM multilingue pionnier conçu non seulement pour performer de manière exceptionnelle dans les tâches multilingues, incluant les langues à faibles ressources, mais aussi pour maintenir de solides performances en anglais et dans d'autres grandes langues, comblant ainsi l'écart de performance entre les capacités linguistiques à ressources élevées et faibles. En reliant les langues, cet effort démontre notre engagement à garantir que les LLM fonctionnent de manière précise à travers différentes langues.
English
Large Language Models (LLMs) have achieved remarkable progress in recent
years; however, their excellent performance is still largely limited to major
world languages, primarily English. Many LLMs continue to face challenges with
multilingual tasks, especially when it comes to low-resource languages. To
address this issue, we introduced Marco-LLM: Massive multilingual training for
cross-lingual enhancement LLM. We have collected a substantial amount of
multilingual data for several low-resource languages and conducted extensive
continual pre-training using the Qwen2 models. This effort has resulted in a
multilingual LLM named Marco-LLM. Through comprehensive evaluations on various
multilingual benchmarks, including MMMLU, AGIEval, Belebele, Flores-200, XCOPA
and many others, Marco-LLM has demonstrated substantial improvements over
state-of-the-art LLMs. Furthermore, Marco-LLM achieved substantial enhancements
in any-to-any machine translation tasks, showing the effectiveness of our
multilingual LLM. Marco-LLM is a pioneering multilingual LLM designed to not
only perform exceptionally well in multilingual tasks, including low-resource
languages, but also maintain strong performance in English and other major
languages, closing the performance gap between high- and low-resource language
capabilities. By bridging languages, this effort demonstrates our dedication to
ensuring LLMs work accurately across various languages.Summary
AI-Generated Summary