PolyLM: Een Open Source Polyglot Taalmodel op Grote Schaal

Samenvatting

Grote taalmodellen (LLM's) tonen een opmerkelijke vaardigheid om natuurlijke taal instructies te begrijpen, te redeneren en te genereren. De ontwikkeling van LLM's is echter voornamelijk gericht geweest op talen met veel bronnen, zoals Engels, waardoor hun toepasbaarheid en onderzoek in andere talen beperkt blijft. Daarom presenteren wij PolyLM, een meertalig LLM getraind op 640 miljard (B) tokens, beschikbaar in twee modelgroottes: 1,7B en 13B. Om de meertalige capaciteiten te verbeteren, hebben we 1) tweetalige data geïntegreerd in de trainingsdata; en 2) een curriculumleren strategie toegepast die het aandeel van niet-Engelse data verhoogt van 30% in de eerste fase naar 60% in de laatste fase tijdens de pre-training. Verder stellen we een meertalige zelf-instructie methode voor die automatisch 132,7K diverse meertalige instructies genereert voor model fine-tuning. Om de prestaties van het model te beoordelen, verzamelen we verschillende bestaande meertalige taken, waaronder meertalig begrip, vraagbeantwoording, generatie en vertaling. Uitgebreide experimenten tonen aan dat PolyLM andere open-source modellen zoals LLaMA en BLOOM overtreft op meertalige taken, terwijl het vergelijkbare prestaties behoudt in het Engels. Onze modellen, samen met de instructiedata en meertalige benchmark, zijn beschikbaar op: https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.

English

Large language models (LLMs) demonstrate remarkable ability to comprehend, reason, and generate following nature language instructions. However, the development of LLMs has been primarily focused on high-resource languages, such as English, thereby limiting their applicability and research in other languages. Consequently, we present PolyLM, a multilingual LLM trained on 640 billion (B) tokens, avaliable in two model sizes: 1.7B and 13B. To enhance its multilingual capabilities, we 1) integrate bilingual data into training data; and 2) adopt a curriculum learning strategy that increases the proportion of non-English data from 30% in the first stage to 60% in the final stage during pre-training. Further, we propose a multilingual self-instruct method which automatically generates 132.7K diverse multilingual instructions for model fine-tuning. To assess the model's performance, we collect several existing multilingual tasks, including multilingual understanding, question answering, generation, and translation. Extensive experiments show that PolyLM surpasses other open-source models such as LLaMA and BLOOM on multilingual tasks while maintaining comparable performance in English. Our models, alone with the instruction data and multilingual benchmark, are available at: https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.

PolyLM: Een Open Source Polyglot Taalmodel op Grote Schaal

PolyLM: An Open Source Polyglot Large Language Model

Samenvatting

Support