PolyLM: Een Open Source Polyglot Taalmodel op Grote Schaal
PolyLM: An Open Source Polyglot Large Language Model
July 12, 2023
Auteurs: Xiangpeng Wei, Haoran Wei, Huan Lin, Tianhao Li, Pei Zhang, Xingzhang Ren, Mei Li, Yu Wan, Zhiwei Cao, Binbin Xie, Tianxiang Hu, Shangjie Li, Binyuan Hui, Bowen Yu, Dayiheng Liu, Baosong Yang, Fei Huang, Jun Xie
cs.AI
Samenvatting
Grote taalmodellen (LLM's) tonen een opmerkelijke vaardigheid om natuurlijke taal instructies te begrijpen, te redeneren en te genereren. De ontwikkeling van LLM's is echter voornamelijk gericht geweest op talen met veel bronnen, zoals Engels, waardoor hun toepasbaarheid en onderzoek in andere talen beperkt blijft. Daarom presenteren wij PolyLM, een meertalig LLM getraind op 640 miljard (B) tokens, beschikbaar in twee modelgroottes: 1,7B en 13B. Om de meertalige capaciteiten te verbeteren, hebben we 1) tweetalige data geïntegreerd in de trainingsdata; en 2) een curriculumleren strategie toegepast die het aandeel van niet-Engelse data verhoogt van 30% in de eerste fase naar 60% in de laatste fase tijdens de pre-training. Verder stellen we een meertalige zelf-instructie methode voor die automatisch 132,7K diverse meertalige instructies genereert voor model fine-tuning. Om de prestaties van het model te beoordelen, verzamelen we verschillende bestaande meertalige taken, waaronder meertalig begrip, vraagbeantwoording, generatie en vertaling. Uitgebreide experimenten tonen aan dat PolyLM andere open-source modellen zoals LLaMA en BLOOM overtreft op meertalige taken, terwijl het vergelijkbare prestaties behoudt in het Engels. Onze modellen, samen met de instructiedata en meertalige benchmark, zijn beschikbaar op: https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.
English
Large language models (LLMs) demonstrate remarkable ability to comprehend,
reason, and generate following nature language instructions. However, the
development of LLMs has been primarily focused on high-resource languages, such
as English, thereby limiting their applicability and research in other
languages. Consequently, we present PolyLM, a multilingual LLM trained on 640
billion (B) tokens, avaliable in two model sizes: 1.7B and 13B. To enhance its
multilingual capabilities, we 1) integrate bilingual data into training data;
and 2) adopt a curriculum learning strategy that increases the proportion of
non-English data from 30% in the first stage to 60% in the final stage during
pre-training. Further, we propose a multilingual self-instruct method which
automatically generates 132.7K diverse multilingual instructions for model
fine-tuning. To assess the model's performance, we collect several existing
multilingual tasks, including multilingual understanding, question answering,
generation, and translation. Extensive experiments show that PolyLM surpasses
other open-source models such as LLaMA and BLOOM on multilingual tasks while
maintaining comparable performance in English. Our models, alone with the
instruction data and multilingual benchmark, are available at:
https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.