Marco-LLM:クロスリンガルの向上のための大規模多言語トレーニングを介した言語間の橋渡し
Marco-LLM: Bridging Languages via Massive Multilingual Training for Cross-Lingual Enhancement
December 5, 2024
著者: Lingfeng Ming, Bo Zeng, Chenyang Lyu, Tianqi Shi, Yu Zhao, Xue Yang, Yefeng Liu, Yiyu Wang, Linlong Xu, Yangyang Liu, Xiaohu Zhao, Hao Wang, Heng Liu, Hao Zhou, Huifeng Yin, Zifu Shang, Haijun Li, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI
要旨
近年、大規模言語モデル(LLMs)は著しい進歩を遂げていますが、その優れた性能は主に英語などの主要世界言語に限定されています。多くのLLMsは、特に低リソース言語に関わる多言語タスクにおいて依然として課題に直面しています。この問題に対処するために、私たちはMarco-LLMを導入しました:クロスリンガル強化LLMのための大規模多言語トレーニング。私たちはいくつかの低リソース言語向けに大量の多言語データを収集し、Qwen2モデルを用いた包括的な継続的事前トレーニングを行いました。この取り組みにより、Marco-LLMという多言語LLMが生まれました。MMMLU、AGIEval、Belebele、Flores-200、XCOPAなどのさまざまな多言語ベンチマークで包括的な評価を行った結果、Marco-LLMは最先端のLLMsに比べて著しい改善を示しました。さらに、Marco-LLMはany-to-any機械翻訳タスクにおいて著しい向上を達成し、当社の多言語LLMの効果を示しました。Marco-LLMは、多言語タスク(低リソース言語を含む)で優れたパフォーマンスを発揮するだけでなく、英語や他の主要言語でも強力なパフォーマンスを維持し、高リソース言語と低リソース言語の性能差を縮小することを目指した先駆的な多言語LLMです。言語をつなぐことで、この取り組みは、LLMsが様々な言語で正確に機能することを確実にするための私たちの献身を示しています。
English
Large Language Models (LLMs) have achieved remarkable progress in recent
years; however, their excellent performance is still largely limited to major
world languages, primarily English. Many LLMs continue to face challenges with
multilingual tasks, especially when it comes to low-resource languages. To
address this issue, we introduced Marco-LLM: Massive multilingual training for
cross-lingual enhancement LLM. We have collected a substantial amount of
multilingual data for several low-resource languages and conducted extensive
continual pre-training using the Qwen2 models. This effort has resulted in a
multilingual LLM named Marco-LLM. Through comprehensive evaluations on various
multilingual benchmarks, including MMMLU, AGIEval, Belebele, Flores-200, XCOPA
and many others, Marco-LLM has demonstrated substantial improvements over
state-of-the-art LLMs. Furthermore, Marco-LLM achieved substantial enhancements
in any-to-any machine translation tasks, showing the effectiveness of our
multilingual LLM. Marco-LLM is a pioneering multilingual LLM designed to not
only perform exceptionally well in multilingual tasks, including low-resource
languages, but also maintain strong performance in English and other major
languages, closing the performance gap between high- and low-resource language
capabilities. By bridging languages, this effort demonstrates our dedication to
ensuring LLMs work accurately across various languages.Summary
AI-Generated Summary