Marco-LLM: Überbrückung von Sprachen durch umfangreiches mehrsprachiges Training zur Verbesserung der mehrsprachigen Fähigkeiten
Marco-LLM: Bridging Languages via Massive Multilingual Training for Cross-Lingual Enhancement
December 5, 2024
Autoren: Lingfeng Ming, Bo Zeng, Chenyang Lyu, Tianqi Shi, Yu Zhao, Xue Yang, Yefeng Liu, Yiyu Wang, Linlong Xu, Yangyang Liu, Xiaohu Zhao, Hao Wang, Heng Liu, Hao Zhou, Huifeng Yin, Zifu Shang, Haijun Li, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben in den letzten Jahren bemerkenswerte Fortschritte erzielt; jedoch ist ihre ausgezeichnete Leistung immer noch weitgehend auf die großen Weltsprachen, hauptsächlich Englisch, beschränkt. Viele LLMs haben nach wie vor Schwierigkeiten mit mehrsprachigen Aufgaben, insbesondere bei wenig ressourcenstarken Sprachen. Um dieses Problem anzugehen, haben wir Marco-LLM eingeführt: Massives mehrsprachiges Training zur Verbesserung der mehrsprachigen Fähigkeiten von LLMs. Wir haben eine beträchtliche Menge mehrsprachiger Daten für mehrere wenig ressourcenstarke Sprachen gesammelt und umfangreiches kontinuierliches Vor-Training unter Verwendung der Qwen2-Modelle durchgeführt. Diese Bemühungen haben zu einem mehrsprachigen LLM namens Marco-LLM geführt. Durch umfassende Bewertungen auf verschiedenen mehrsprachigen Benchmarks, einschließlich MMMLU, AGIEval, Belebele, Flores-200, XCOPA und vielen anderen, hat Marco-LLM signifikante Verbesserungen gegenüber führenden LLMs gezeigt. Darüber hinaus erzielte Marco-LLM signifikante Verbesserungen bei maschinellen Übersetzungsaufgaben von jeder Sprache zu jeder Sprache, was die Wirksamkeit unseres mehrsprachigen LLMs zeigt. Marco-LLM ist ein wegweisendes mehrsprachiges LLM, das nicht nur bei mehrsprachigen Aufgaben, einschließlich wenig ressourcenstarker Sprachen, außergewöhnlich gut abschneidet, sondern auch eine starke Leistung in Englisch und anderen großen Sprachen beibehält und die Leistungslücke zwischen wenig und stark ressourcenstarken Sprachen schließt. Durch die Verbindung von Sprachen zeigt dieser Ansatz unsere Hingabe, sicherzustellen, dass LLMs präzise in verschiedenen Sprachen arbeiten.
English
Large Language Models (LLMs) have achieved remarkable progress in recent
years; however, their excellent performance is still largely limited to major
world languages, primarily English. Many LLMs continue to face challenges with
multilingual tasks, especially when it comes to low-resource languages. To
address this issue, we introduced Marco-LLM: Massive multilingual training for
cross-lingual enhancement LLM. We have collected a substantial amount of
multilingual data for several low-resource languages and conducted extensive
continual pre-training using the Qwen2 models. This effort has resulted in a
multilingual LLM named Marco-LLM. Through comprehensive evaluations on various
multilingual benchmarks, including MMMLU, AGIEval, Belebele, Flores-200, XCOPA
and many others, Marco-LLM has demonstrated substantial improvements over
state-of-the-art LLMs. Furthermore, Marco-LLM achieved substantial enhancements
in any-to-any machine translation tasks, showing the effectiveness of our
multilingual LLM. Marco-LLM is a pioneering multilingual LLM designed to not
only perform exceptionally well in multilingual tasks, including low-resource
languages, but also maintain strong performance in English and other major
languages, closing the performance gap between high- and low-resource language
capabilities. By bridging languages, this effort demonstrates our dedication to
ensuring LLMs work accurately across various languages.Summary
AI-Generated Summary