PolyLM: Un Modello Linguistico Poliglotta Open Source di Grandi Dimensioni
PolyLM: An Open Source Polyglot Large Language Model
July 12, 2023
Autori: Xiangpeng Wei, Haoran Wei, Huan Lin, Tianhao Li, Pei Zhang, Xingzhang Ren, Mei Li, Yu Wan, Zhiwei Cao, Binbin Xie, Tianxiang Hu, Shangjie Li, Binyuan Hui, Bowen Yu, Dayiheng Liu, Baosong Yang, Fei Huang, Jun Xie
cs.AI
Abstract
I grandi modelli linguistici (LLM) dimostrano una notevole capacità di comprendere, ragionare e generare testo seguendo istruzioni in linguaggio naturale. Tuttavia, lo sviluppo degli LLM si è concentrato principalmente su lingue ad alto livello di risorse, come l'inglese, limitando così la loro applicabilità e la ricerca in altre lingue. Di conseguenza, presentiamo PolyLM, un LLM multilingue addestrato su 640 miliardi (B) di token, disponibile in due dimensioni: 1,7B e 13B. Per potenziare le sue capacità multilingue, abbiamo 1) integrato dati bilingui nel set di addestramento; e 2) adottato una strategia di apprendimento curriculare che aumenta la proporzione di dati non in inglese dal 30% nella prima fase al 60% nella fase finale durante il pre-addestramento. Inoltre, proponiamo un metodo di auto-istruzione multilingue che genera automaticamente 132,7K istruzioni multilingue diverse per l'ottimizzazione del modello. Per valutare le prestazioni del modello, abbiamo raccolto diversi compiti multilingue esistenti, tra cui comprensione multilingue, risposta a domande, generazione e traduzione. Esperimenti estensivi dimostrano che PolyLM supera altri modelli open-source come LLaMA e BLOOM nei compiti multilingue, mantenendo prestazioni comparabili in inglese. I nostri modelli, insieme ai dati di istruzione e al benchmark multilingue, sono disponibili al seguente indirizzo: https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.
English
Large language models (LLMs) demonstrate remarkable ability to comprehend,
reason, and generate following nature language instructions. However, the
development of LLMs has been primarily focused on high-resource languages, such
as English, thereby limiting their applicability and research in other
languages. Consequently, we present PolyLM, a multilingual LLM trained on 640
billion (B) tokens, avaliable in two model sizes: 1.7B and 13B. To enhance its
multilingual capabilities, we 1) integrate bilingual data into training data;
and 2) adopt a curriculum learning strategy that increases the proportion of
non-English data from 30% in the first stage to 60% in the final stage during
pre-training. Further, we propose a multilingual self-instruct method which
automatically generates 132.7K diverse multilingual instructions for model
fine-tuning. To assess the model's performance, we collect several existing
multilingual tasks, including multilingual understanding, question answering,
generation, and translation. Extensive experiments show that PolyLM surpasses
other open-source models such as LLaMA and BLOOM on multilingual tasks while
maintaining comparable performance in English. Our models, alone with the
instruction data and multilingual benchmark, are available at:
https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.