ChatPaper.aiChatPaper

Marco-LLM: Conectando Idiomas a través de un Entrenamiento Multilingüe Masivo para Mejora Cruzada entre Idiomas

Marco-LLM: Bridging Languages via Massive Multilingual Training for Cross-Lingual Enhancement

December 5, 2024
Autores: Lingfeng Ming, Bo Zeng, Chenyang Lyu, Tianqi Shi, Yu Zhao, Xue Yang, Yefeng Liu, Yiyu Wang, Linlong Xu, Yangyang Liu, Xiaohu Zhao, Hao Wang, Heng Liu, Hao Zhou, Huifeng Yin, Zifu Shang, Haijun Li, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Tamaño (LLMs) han logrado un progreso notable en los últimos años; sin embargo, su excelente rendimiento sigue estando principalmente limitado a los principales idiomas del mundo, principalmente el inglés. Muchos LLMs siguen enfrentando desafíos con tareas multilingües, especialmente cuando se trata de idiomas con pocos recursos. Para abordar este problema, presentamos Marco-LLM: Entrenamiento masivo multilingüe para la mejora cruzada de LLM. Hemos recopilado una cantidad sustancial de datos multilingües para varios idiomas con pocos recursos y hemos llevado a cabo una extensa preformación continua utilizando los modelos Qwen2. Este esfuerzo ha dado como resultado un LLM multilingüe llamado Marco-LLM. A través de evaluaciones exhaustivas en varios puntos de referencia multilingües, incluidos MMMLU, AGIEval, Belebele, Flores-200, XCOPA y muchos otros, Marco-LLM ha demostrado mejoras sustanciales sobre los LLMs de vanguardia. Además, Marco-LLM logró mejoras sustanciales en tareas de traducción automática de cualquier idioma a cualquier idioma, mostrando la efectividad de nuestro LLM multilingüe. Marco-LLM es un LLM multilingüe pionero diseñado no solo para desempeñarse excepcionalmente bien en tareas multilingües, incluidos los idiomas con pocos recursos, sino también para mantener un rendimiento sólido en inglés y otros idiomas principales, cerrando la brecha de rendimiento entre las capacidades de idiomas con muchos recursos y con pocos recursos. Al unir los idiomas, este esfuerzo demuestra nuestra dedicación para garantizar que los LLMs funcionen con precisión en varios idiomas.
English
Large Language Models (LLMs) have achieved remarkable progress in recent years; however, their excellent performance is still largely limited to major world languages, primarily English. Many LLMs continue to face challenges with multilingual tasks, especially when it comes to low-resource languages. To address this issue, we introduced Marco-LLM: Massive multilingual training for cross-lingual enhancement LLM. We have collected a substantial amount of multilingual data for several low-resource languages and conducted extensive continual pre-training using the Qwen2 models. This effort has resulted in a multilingual LLM named Marco-LLM. Through comprehensive evaluations on various multilingual benchmarks, including MMMLU, AGIEval, Belebele, Flores-200, XCOPA and many others, Marco-LLM has demonstrated substantial improvements over state-of-the-art LLMs. Furthermore, Marco-LLM achieved substantial enhancements in any-to-any machine translation tasks, showing the effectiveness of our multilingual LLM. Marco-LLM is a pioneering multilingual LLM designed to not only perform exceptionally well in multilingual tasks, including low-resource languages, but also maintain strong performance in English and other major languages, closing the performance gap between high- and low-resource language capabilities. By bridging languages, this effort demonstrates our dedication to ensuring LLMs work accurately across various languages.

Summary

AI-Generated Summary

PDF102December 6, 2024