Marco-LLM : Relier les langues via un entraînement massif multilingue pour l'amélioration interlingue

papers.abstract

Les grands modèles de langage (LLM) ont réalisé des progrès remarquables ces dernières années; cependant, leur excellente performance est encore largement limitée aux grandes langues du monde, principalement l'anglais. De nombreux LLM continuent de rencontrer des défis avec les tâches multilingues, surtout lorsqu'il s'agit de langues à faibles ressources. Pour résoudre ce problème, nous avons introduit Marco-LLM : Entraînement massif multilingue pour l'amélioration interlingue des LLM. Nous avons collecté une quantité substantielle de données multilingues pour plusieurs langues à faibles ressources et mené une pré-formation continue approfondie en utilisant les modèles Qwen2. Cet effort a abouti à un LLM multilingue nommé Marco-LLM. À travers des évaluations approfondies sur divers bancs d'essai multilingues, incluant MMMLU, AGIEval, Belebele, Flores-200, XCOPA et bien d'autres, Marco-LLM a démontré des améliorations substantielles par rapport aux LLM de pointe. De plus, Marco-LLM a obtenu des améliorations substantielles dans les tâches de traduction automatique de n'importe quelle langue vers n'importe quelle langue, montrant ainsi l'efficacité de notre LLM multilingue. Marco-LLM est un LLM multilingue pionnier conçu non seulement pour performer de manière exceptionnelle dans les tâches multilingues, incluant les langues à faibles ressources, mais aussi pour maintenir de solides performances en anglais et dans d'autres grandes langues, comblant ainsi l'écart de performance entre les capacités linguistiques à ressources élevées et faibles. En reliant les langues, cet effort démontre notre engagement à garantir que les LLM fonctionnent de manière précise à travers différentes langues.

English

Large Language Models (LLMs) have achieved remarkable progress in recent years; however, their excellent performance is still largely limited to major world languages, primarily English. Many LLMs continue to face challenges with multilingual tasks, especially when it comes to low-resource languages. To address this issue, we introduced Marco-LLM: Massive multilingual training for cross-lingual enhancement LLM. We have collected a substantial amount of multilingual data for several low-resource languages and conducted extensive continual pre-training using the Qwen2 models. This effort has resulted in a multilingual LLM named Marco-LLM. Through comprehensive evaluations on various multilingual benchmarks, including MMMLU, AGIEval, Belebele, Flores-200, XCOPA and many others, Marco-LLM has demonstrated substantial improvements over state-of-the-art LLMs. Furthermore, Marco-LLM achieved substantial enhancements in any-to-any machine translation tasks, showing the effectiveness of our multilingual LLM. Marco-LLM is a pioneering multilingual LLM designed to not only perform exceptionally well in multilingual tasks, including low-resource languages, but also maintain strong performance in English and other major languages, closing the performance gap between high- and low-resource language capabilities. By bridging languages, this effort demonstrates our dedication to ensuring LLMs work accurately across various languages.

Marco-LLM : Relier les langues via un entraînement massif multilingue pour l'amélioration interlingue

Marco-LLM: Bridging Languages via Massive Multilingual Training for Cross-Lingual Enhancement

papers.abstract

Support