PolyLM: Un Modello Linguistico Poliglotta Open Source di Grandi Dimensioni

Abstract

I grandi modelli linguistici (LLM) dimostrano una notevole capacità di comprendere, ragionare e generare testo seguendo istruzioni in linguaggio naturale. Tuttavia, lo sviluppo degli LLM si è concentrato principalmente su lingue ad alto livello di risorse, come l'inglese, limitando così la loro applicabilità e la ricerca in altre lingue. Di conseguenza, presentiamo PolyLM, un LLM multilingue addestrato su 640 miliardi (B) di token, disponibile in due dimensioni: 1,7B e 13B. Per potenziare le sue capacità multilingue, abbiamo 1) integrato dati bilingui nel set di addestramento; e 2) adottato una strategia di apprendimento curriculare che aumenta la proporzione di dati non in inglese dal 30% nella prima fase al 60% nella fase finale durante il pre-addestramento. Inoltre, proponiamo un metodo di auto-istruzione multilingue che genera automaticamente 132,7K istruzioni multilingue diverse per l'ottimizzazione del modello. Per valutare le prestazioni del modello, abbiamo raccolto diversi compiti multilingue esistenti, tra cui comprensione multilingue, risposta a domande, generazione e traduzione. Esperimenti estensivi dimostrano che PolyLM supera altri modelli open-source come LLaMA e BLOOM nei compiti multilingue, mantenendo prestazioni comparabili in inglese. I nostri modelli, insieme ai dati di istruzione e al benchmark multilingue, sono disponibili al seguente indirizzo: https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.

English

Large language models (LLMs) demonstrate remarkable ability to comprehend, reason, and generate following nature language instructions. However, the development of LLMs has been primarily focused on high-resource languages, such as English, thereby limiting their applicability and research in other languages. Consequently, we present PolyLM, a multilingual LLM trained on 640 billion (B) tokens, avaliable in two model sizes: 1.7B and 13B. To enhance its multilingual capabilities, we 1) integrate bilingual data into training data; and 2) adopt a curriculum learning strategy that increases the proportion of non-English data from 30% in the first stage to 60% in the final stage during pre-training. Further, we propose a multilingual self-instruct method which automatically generates 132.7K diverse multilingual instructions for model fine-tuning. To assess the model's performance, we collect several existing multilingual tasks, including multilingual understanding, question answering, generation, and translation. Extensive experiments show that PolyLM surpasses other open-source models such as LLaMA and BLOOM on multilingual tasks while maintaining comparable performance in English. Our models, alone with the instruction data and multilingual benchmark, are available at: https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.

PolyLM: Un Modello Linguistico Poliglotta Open Source di Grandi Dimensioni

PolyLM: An Open Source Polyglot Large Language Model

Abstract

Support