ChatPaper.aiChatPaper

Marco-LLM: Het overbruggen van talen via grootschalige meertalige training voor Cross-Lingual Enhancement

Marco-LLM: Bridging Languages via Massive Multilingual Training for Cross-Lingual Enhancement

December 5, 2024
Auteurs: Lingfeng Ming, Bo Zeng, Chenyang Lyu, Tianqi Shi, Yu Zhao, Xue Yang, Yefeng Liu, Yiyu Wang, Linlong Xu, Yangyang Liu, Xiaohu Zhao, Hao Wang, Heng Liu, Hao Zhou, Huifeng Yin, Zifu Shang, Haijun Li, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI

Samenvatting

Grote Taalmodellen (LLM's) hebben de afgelopen jaren opmerkelijke vooruitgang geboekt; echter, hun uitstekende prestaties zijn nog steeds grotendeels beperkt tot de belangrijkste wereldtalen, voornamelijk Engels. Veel LLM's blijven uitdagingen ondervinden bij meertalige taken, vooral als het gaat om talen met weinig bronnen. Om dit probleem aan te pakken, hebben we Marco-LLM geïntroduceerd: Massieve meertalige training voor cross-linguale verbetering van LLM's. We hebben een aanzienlijke hoeveelheid meertalige gegevens verzameld voor verschillende talen met weinig bronnen en uitgebreide voortdurende voorafgaande training uitgevoerd met behulp van de Qwen2-modellen. Deze inspanning heeft geleid tot een meertalig LLM genaamd Marco-LLM. Door uitgebreide evaluaties op verschillende meertalige benchmarks, waaronder MMMLU, AGIEval, Belebele, Flores-200, XCOPA en vele anderen, heeft Marco-LLM aanzienlijke verbeteringen aangetoond ten opzichte van toonaangevende LLM's. Bovendien heeft Marco-LLM aanzienlijke verbeteringen behaald in machinevertalingstaken van elk naar elk, wat de effectiviteit van ons meertalige LLM aantoont. Marco-LLM is een baanbrekend meertalig LLM dat is ontworpen om niet alleen uitzonderlijk goed te presteren bij meertalige taken, inclusief talen met weinig bronnen, maar ook sterke prestaties te behouden in het Engels en andere belangrijke talen, waardoor de prestatiekloof tussen talen met veel en weinig bronnen wordt verkleind. Door talen met elkaar te verbinden, toont deze inspanning onze toewijding aan het zorgen dat LLM's nauwkeurig werken in verschillende talen.
English
Large Language Models (LLMs) have achieved remarkable progress in recent years; however, their excellent performance is still largely limited to major world languages, primarily English. Many LLMs continue to face challenges with multilingual tasks, especially when it comes to low-resource languages. To address this issue, we introduced Marco-LLM: Massive multilingual training for cross-lingual enhancement LLM. We have collected a substantial amount of multilingual data for several low-resource languages and conducted extensive continual pre-training using the Qwen2 models. This effort has resulted in a multilingual LLM named Marco-LLM. Through comprehensive evaluations on various multilingual benchmarks, including MMMLU, AGIEval, Belebele, Flores-200, XCOPA and many others, Marco-LLM has demonstrated substantial improvements over state-of-the-art LLMs. Furthermore, Marco-LLM achieved substantial enhancements in any-to-any machine translation tasks, showing the effectiveness of our multilingual LLM. Marco-LLM is a pioneering multilingual LLM designed to not only perform exceptionally well in multilingual tasks, including low-resource languages, but also maintain strong performance in English and other major languages, closing the performance gap between high- and low-resource language capabilities. By bridging languages, this effort demonstrates our dedication to ensuring LLMs work accurately across various languages.
PDF112December 6, 2024