PolyLM: Un Modelo de Lenguaje Grande Políglota de Código Abierto
PolyLM: An Open Source Polyglot Large Language Model
July 12, 2023
Autores: Xiangpeng Wei, Haoran Wei, Huan Lin, Tianhao Li, Pei Zhang, Xingzhang Ren, Mei Li, Yu Wan, Zhiwei Cao, Binbin Xie, Tianxiang Hu, Shangjie Li, Binyuan Hui, Bowen Yu, Dayiheng Liu, Baosong Yang, Fei Huang, Jun Xie
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) demuestran una capacidad notable para comprender, razonar y generar texto siguiendo instrucciones en lenguaje natural. Sin embargo, el desarrollo de los LLMs se ha centrado principalmente en idiomas con muchos recursos, como el inglés, lo que limita su aplicabilidad e investigación en otros idiomas. En consecuencia, presentamos PolyLM, un LLM multilingüe entrenado con 640 mil millones (B) de tokens, disponible en dos tamaños de modelo: 1.7B y 13B. Para mejorar sus capacidades multilingües, 1) integramos datos bilingües en los datos de entrenamiento; y 2) adoptamos una estrategia de aprendizaje curricular que aumenta la proporción de datos no ingleses del 30% en la primera etapa al 60% en la etapa final durante el preentrenamiento. Además, proponemos un método de auto-instrucción multilingüe que genera automáticamente 132.7K instrucciones multilingües diversas para el ajuste fino del modelo. Para evaluar el rendimiento del modelo, recopilamos varias tareas multilingües existentes, incluyendo comprensión multilingüe, respuesta a preguntas, generación y traducción. Experimentos extensos muestran que PolyLM supera a otros modelos de código abierto como LLaMA y BLOOM en tareas multilingües, manteniendo un rendimiento comparable en inglés. Nuestros modelos, junto con los datos de instrucción y el benchmark multilingüe, están disponibles en: https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.
English
Large language models (LLMs) demonstrate remarkable ability to comprehend,
reason, and generate following nature language instructions. However, the
development of LLMs has been primarily focused on high-resource languages, such
as English, thereby limiting their applicability and research in other
languages. Consequently, we present PolyLM, a multilingual LLM trained on 640
billion (B) tokens, avaliable in two model sizes: 1.7B and 13B. To enhance its
multilingual capabilities, we 1) integrate bilingual data into training data;
and 2) adopt a curriculum learning strategy that increases the proportion of
non-English data from 30% in the first stage to 60% in the final stage during
pre-training. Further, we propose a multilingual self-instruct method which
automatically generates 132.7K diverse multilingual instructions for model
fine-tuning. To assess the model's performance, we collect several existing
multilingual tasks, including multilingual understanding, question answering,
generation, and translation. Extensive experiments show that PolyLM surpasses
other open-source models such as LLaMA and BLOOM on multilingual tasks while
maintaining comparable performance in English. Our models, alone with the
instruction data and multilingual benchmark, are available at:
https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.