ChatPaper.aiChatPaper

PolyLM : Un modèle de langage polyglotte open source de grande envergure

PolyLM: An Open Source Polyglot Large Language Model

July 12, 2023
Auteurs: Xiangpeng Wei, Haoran Wei, Huan Lin, Tianhao Li, Pei Zhang, Xingzhang Ren, Mei Li, Yu Wan, Zhiwei Cao, Binbin Xie, Tianxiang Hu, Shangjie Li, Binyuan Hui, Bowen Yu, Dayiheng Liu, Baosong Yang, Fei Huang, Jun Xie
cs.AI

Résumé

Les grands modèles de langage (LLMs) démontrent une capacité remarquable à comprendre, raisonner et générer du texte en suivant des instructions en langage naturel. Cependant, le développement des LLMs s'est principalement concentré sur les langues à ressources abondantes, comme l'anglais, limitant ainsi leur applicabilité et la recherche dans d'autres langues. Par conséquent, nous présentons PolyLM, un LLM multilingue entraîné sur 640 milliards (B) de tokens, disponible en deux tailles de modèle : 1,7B et 13B. Pour renforcer ses capacités multilingues, nous 1) intégrons des données bilingues dans les données d'entraînement ; et 2) adoptons une stratégie d'apprentissage curriculaire qui augmente la proportion de données non anglophones de 30 % dans la première phase à 60 % dans la phase finale lors du pré-entraînement. De plus, nous proposons une méthode d'auto-instruction multilingue qui génère automatiquement 132,7K instructions multilingues diversifiées pour l'affinage du modèle. Pour évaluer les performances du modèle, nous collectons plusieurs tâches multilingues existantes, notamment la compréhension multilingue, la réponse aux questions, la génération de texte et la traduction. Des expériences approfondies montrent que PolyLM surpasse d'autres modèles open-source tels que LLaMA et BLOOM sur les tâches multilingues tout en maintenant des performances comparables en anglais. Nos modèles, ainsi que les données d'instruction et le benchmark multilingue, sont disponibles à l'adresse suivante : https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.
English
Large language models (LLMs) demonstrate remarkable ability to comprehend, reason, and generate following nature language instructions. However, the development of LLMs has been primarily focused on high-resource languages, such as English, thereby limiting their applicability and research in other languages. Consequently, we present PolyLM, a multilingual LLM trained on 640 billion (B) tokens, avaliable in two model sizes: 1.7B and 13B. To enhance its multilingual capabilities, we 1) integrate bilingual data into training data; and 2) adopt a curriculum learning strategy that increases the proportion of non-English data from 30% in the first stage to 60% in the final stage during pre-training. Further, we propose a multilingual self-instruct method which automatically generates 132.7K diverse multilingual instructions for model fine-tuning. To assess the model's performance, we collect several existing multilingual tasks, including multilingual understanding, question answering, generation, and translation. Extensive experiments show that PolyLM surpasses other open-source models such as LLaMA and BLOOM on multilingual tasks while maintaining comparable performance in English. Our models, alone with the instruction data and multilingual benchmark, are available at: https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.
PDF264December 15, 2024