PolyLM: Um Modelo de Linguagem Grande Poliglota de Código Aberto

Resumo

Os grandes modelos de linguagem (LLMs, na sigla em inglês) demonstram uma capacidade notável de compreender, raciocinar e gerar textos seguindo instruções em linguagem natural. No entanto, o desenvolvimento dos LLMs tem se concentrado principalmente em idiomas de alta disponibilidade de recursos, como o inglês, limitando assim sua aplicabilidade e pesquisa em outros idiomas. Consequentemente, apresentamos o PolyLM, um LLM multilíngue treinado com 640 bilhões (B) de tokens, disponível em dois tamanhos de modelo: 1,7B e 13B. Para aprimorar suas capacidades multilíngues, 1) integramos dados bilíngues ao conjunto de treinamento; e 2) adotamos uma estratégia de aprendizado curricular que aumenta a proporção de dados não ingleses de 30% na primeira etapa para 60% na etapa final durante o pré-treinamento. Além disso, propomos um método de autoinstrução multilíngue que gera automaticamente 132,7 mil instruções multilíngues diversas para o ajuste fino do modelo. Para avaliar o desempenho do modelo, coletamos várias tarefas multilíngues existentes, incluindo compreensão multilíngue, resposta a perguntas, geração de texto e tradução. Experimentos extensivos mostram que o PolyLM supera outros modelos de código aberto, como LLaMA e BLOOM, em tarefas multilíngues, mantendo um desempenho comparável em inglês. Nossos modelos, juntamente com os dados de instrução e o benchmark multilíngue, estão disponíveis em: https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.

English

Large language models (LLMs) demonstrate remarkable ability to comprehend, reason, and generate following nature language instructions. However, the development of LLMs has been primarily focused on high-resource languages, such as English, thereby limiting their applicability and research in other languages. Consequently, we present PolyLM, a multilingual LLM trained on 640 billion (B) tokens, avaliable in two model sizes: 1.7B and 13B. To enhance its multilingual capabilities, we 1) integrate bilingual data into training data; and 2) adopt a curriculum learning strategy that increases the proportion of non-English data from 30% in the first stage to 60% in the final stage during pre-training. Further, we propose a multilingual self-instruct method which automatically generates 132.7K diverse multilingual instructions for model fine-tuning. To assess the model's performance, we collect several existing multilingual tasks, including multilingual understanding, question answering, generation, and translation. Extensive experiments show that PolyLM surpasses other open-source models such as LLaMA and BLOOM on multilingual tasks while maintaining comparable performance in English. Our models, alone with the instruction data and multilingual benchmark, are available at: https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.

PolyLM: Um Modelo de Linguagem Grande Poliglota de Código Aberto

PolyLM: An Open Source Polyglot Large Language Model

Resumo

Support