PolyLM: Um Modelo de Linguagem Grande Poliglota de Código Aberto
PolyLM: An Open Source Polyglot Large Language Model
July 12, 2023
Autores: Xiangpeng Wei, Haoran Wei, Huan Lin, Tianhao Li, Pei Zhang, Xingzhang Ren, Mei Li, Yu Wan, Zhiwei Cao, Binbin Xie, Tianxiang Hu, Shangjie Li, Binyuan Hui, Bowen Yu, Dayiheng Liu, Baosong Yang, Fei Huang, Jun Xie
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs, na sigla em inglês) demonstram uma capacidade notável de compreender, raciocinar e gerar textos seguindo instruções em linguagem natural. No entanto, o desenvolvimento dos LLMs tem se concentrado principalmente em idiomas de alta disponibilidade de recursos, como o inglês, limitando assim sua aplicabilidade e pesquisa em outros idiomas. Consequentemente, apresentamos o PolyLM, um LLM multilíngue treinado com 640 bilhões (B) de tokens, disponível em dois tamanhos de modelo: 1,7B e 13B. Para aprimorar suas capacidades multilíngues, 1) integramos dados bilíngues ao conjunto de treinamento; e 2) adotamos uma estratégia de aprendizado curricular que aumenta a proporção de dados não ingleses de 30% na primeira etapa para 60% na etapa final durante o pré-treinamento. Além disso, propomos um método de autoinstrução multilíngue que gera automaticamente 132,7 mil instruções multilíngues diversas para o ajuste fino do modelo. Para avaliar o desempenho do modelo, coletamos várias tarefas multilíngues existentes, incluindo compreensão multilíngue, resposta a perguntas, geração de texto e tradução. Experimentos extensivos mostram que o PolyLM supera outros modelos de código aberto, como LLaMA e BLOOM, em tarefas multilíngues, mantendo um desempenho comparável em inglês. Nossos modelos, juntamente com os dados de instrução e o benchmark multilíngue, estão disponíveis em: https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.
English
Large language models (LLMs) demonstrate remarkable ability to comprehend,
reason, and generate following nature language instructions. However, the
development of LLMs has been primarily focused on high-resource languages, such
as English, thereby limiting their applicability and research in other
languages. Consequently, we present PolyLM, a multilingual LLM trained on 640
billion (B) tokens, avaliable in two model sizes: 1.7B and 13B. To enhance its
multilingual capabilities, we 1) integrate bilingual data into training data;
and 2) adopt a curriculum learning strategy that increases the proportion of
non-English data from 30% in the first stage to 60% in the final stage during
pre-training. Further, we propose a multilingual self-instruct method which
automatically generates 132.7K diverse multilingual instructions for model
fine-tuning. To assess the model's performance, we collect several existing
multilingual tasks, including multilingual understanding, question answering,
generation, and translation. Extensive experiments show that PolyLM surpasses
other open-source models such as LLaMA and BLOOM on multilingual tasks while
maintaining comparable performance in English. Our models, alone with the
instruction data and multilingual benchmark, are available at:
https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.