ChatPaper.aiChatPaper

Marco-LLM: Соединение языков с помощью массового мультиязычного обучения для кросс-языкового улучшения

Marco-LLM: Bridging Languages via Massive Multilingual Training for Cross-Lingual Enhancement

December 5, 2024
Авторы: Lingfeng Ming, Bo Zeng, Chenyang Lyu, Tianqi Shi, Yu Zhao, Xue Yang, Yefeng Liu, Yiyu Wang, Linlong Xu, Yangyang Liu, Xiaohu Zhao, Hao Wang, Heng Liu, Hao Zhou, Huifeng Yin, Zifu Shang, Haijun Li, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI

Аннотация

Большие языковые модели (LLM) достигли значительного прогресса в последние годы; однако их отличные показатели производительности по-прежнему в основном ограничены крупными мировыми языками, в основном английским. Многие LLM продолжают сталкиваться с проблемами в многоязычных задачах, особенно когда речь идет о языках с ограниченными ресурсами. Для решения этой проблемы мы представили Marco-LLM: Массовое многоязычное обучение для улучшения кросс-языковых LLM. Мы собрали значительное количество многоязычных данных для нескольких языков с ограниченными ресурсами и провели обширное непрерывное предварительное обучение с использованием моделей Qwen2. Эти усилия привели к созданию многоязычной LLM под названием Marco-LLM. После комплексной оценки на различных многоязычных бенчмарках, включая MMMLU, AGIEval, Belebele, Flores-200, XCOPA и многие другие, Marco-LLM продемонстрировал значительные улучшения по сравнению с современными LLM. Более того, Marco-LLM достиг значительных улучшений в задачах машинного перевода любого-на-любой, показывая эффективность нашей многоязычной LLM. Marco-LLM является передовой многоязычной LLM, разработанной не только для выдающихся результатов в многоязычных задачах, включая языки с ограниченными ресурсами, но и для поддержания высоких показателей производительности на английском и других крупных языках, сокращая разрыв в производительности между возможностями языков с высоким и ограниченным количеством ресурсов. Связывая языки, эти усилия демонстрируют наше стремление к обеспечению точной работы LLM в различных языках.
English
Large Language Models (LLMs) have achieved remarkable progress in recent years; however, their excellent performance is still largely limited to major world languages, primarily English. Many LLMs continue to face challenges with multilingual tasks, especially when it comes to low-resource languages. To address this issue, we introduced Marco-LLM: Massive multilingual training for cross-lingual enhancement LLM. We have collected a substantial amount of multilingual data for several low-resource languages and conducted extensive continual pre-training using the Qwen2 models. This effort has resulted in a multilingual LLM named Marco-LLM. Through comprehensive evaluations on various multilingual benchmarks, including MMMLU, AGIEval, Belebele, Flores-200, XCOPA and many others, Marco-LLM has demonstrated substantial improvements over state-of-the-art LLMs. Furthermore, Marco-LLM achieved substantial enhancements in any-to-any machine translation tasks, showing the effectiveness of our multilingual LLM. Marco-LLM is a pioneering multilingual LLM designed to not only perform exceptionally well in multilingual tasks, including low-resource languages, but also maintain strong performance in English and other major languages, closing the performance gap between high- and low-resource language capabilities. By bridging languages, this effort demonstrates our dedication to ensuring LLMs work accurately across various languages.

Summary

AI-Generated Summary

PDF102December 6, 2024