Marco-LLM: Ligando Idiomas por Meio de Treinamento Multilíngue Maciço para Aprimoramento Cruzado de Idiomas
Marco-LLM: Bridging Languages via Massive Multilingual Training for Cross-Lingual Enhancement
December 5, 2024
Autores: Lingfeng Ming, Bo Zeng, Chenyang Lyu, Tianqi Shi, Yu Zhao, Xue Yang, Yefeng Liu, Yiyu Wang, Linlong Xu, Yangyang Liu, Xiaohu Zhao, Hao Wang, Heng Liu, Hao Zhou, Huifeng Yin, Zifu Shang, Haijun Li, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) alcançaram progressos notáveis nos últimos anos; no entanto, sua excelente performance ainda está amplamente limitada aos principais idiomas do mundo, principalmente o inglês. Muitos LLMs continuam enfrentando desafios com tarefas multilíngues, especialmente quando se trata de idiomas com recursos limitados. Para abordar essa questão, introduzimos o Marco-LLM: Treinamento maciço multilíngue para aprimoramento cruzado de LLM. Coletamos uma quantidade substancial de dados multilíngues para vários idiomas com recursos limitados e realizamos extensivos pré-treinamentos contínuos utilizando os modelos Qwen2. Esse esforço resultou em um LLM multilíngue chamado Marco-LLM. Através de avaliações abrangentes em diversos benchmarks multilíngues, incluindo MMMLU, AGIEval, Belebele, Flores-200, XCOPA e muitos outros, o Marco-LLM demonstrou melhorias substanciais em relação aos LLMs de última geração. Além disso, o Marco-LLM obteve melhorias significativas em tarefas de tradução automática de qualquer idioma para qualquer idioma, mostrando a eficácia do nosso LLM multilíngue. O Marco-LLM é um LLM multilíngue pioneiro projetado não apenas para ter um desempenho excepcional em tarefas multilíngues, incluindo idiomas com recursos limitados, mas também para manter um desempenho forte em inglês e outros idiomas principais, reduzindo a diferença de desempenho entre as capacidades linguísticas de idiomas com recursos altos e baixos. Ao unir idiomas, esse esforço demonstra nossa dedicação em garantir que os LLMs funcionem com precisão em diversos idiomas.
English
Large Language Models (LLMs) have achieved remarkable progress in recent
years; however, their excellent performance is still largely limited to major
world languages, primarily English. Many LLMs continue to face challenges with
multilingual tasks, especially when it comes to low-resource languages. To
address this issue, we introduced Marco-LLM: Massive multilingual training for
cross-lingual enhancement LLM. We have collected a substantial amount of
multilingual data for several low-resource languages and conducted extensive
continual pre-training using the Qwen2 models. This effort has resulted in a
multilingual LLM named Marco-LLM. Through comprehensive evaluations on various
multilingual benchmarks, including MMMLU, AGIEval, Belebele, Flores-200, XCOPA
and many others, Marco-LLM has demonstrated substantial improvements over
state-of-the-art LLMs. Furthermore, Marco-LLM achieved substantial enhancements
in any-to-any machine translation tasks, showing the effectiveness of our
multilingual LLM. Marco-LLM is a pioneering multilingual LLM designed to not
only perform exceptionally well in multilingual tasks, including low-resource
languages, but also maintain strong performance in English and other major
languages, closing the performance gap between high- and low-resource language
capabilities. By bridging languages, this effort demonstrates our dedication to
ensuring LLMs work accurately across various languages.Summary
AI-Generated Summary