PolyLM: Ein Open-Source-Polyglottes Großes Sprachmodell
PolyLM: An Open Source Polyglot Large Language Model
July 12, 2023
Autoren: Xiangpeng Wei, Haoran Wei, Huan Lin, Tianhao Li, Pei Zhang, Xingzhang Ren, Mei Li, Yu Wan, Zhiwei Cao, Binbin Xie, Tianxiang Hu, Shangjie Li, Binyuan Hui, Bowen Yu, Dayiheng Liu, Baosong Yang, Fei Huang, Jun Xie
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) zeigen eine bemerkenswerte Fähigkeit, natürliche Sprachanweisungen zu verstehen, zu schlussfolgern und zu generieren. Die Entwicklung von LLMs konzentrierte sich jedoch hauptsächlich auf Hochressourcensprachen wie Englisch, was ihre Anwendbarkeit und Forschung in anderen Sprachen einschränkt. Daher stellen wir PolyLM vor, ein multilinguales LLM, das auf 640 Milliarden (B) Tokens trainiert wurde und in zwei Modellgrößen verfügbar ist: 1,7B und 13B. Um seine multilingualen Fähigkeiten zu verbessern, 1) integrieren wir bilinguale Daten in die Trainingsdaten und 2) verwenden wir eine Curriculum-Learning-Strategie, die den Anteil nicht-englischer Daten von 30 % in der ersten Phase auf 60 % in der letzten Phase während des Pre-Trainings erhöht. Darüber hinaus schlagen wir eine multilinguale Self-Instruct-Methode vor, die automatisch 132,7K diverse multilinguale Anweisungen für die Modellfeinabstimmung generiert. Um die Leistung des Modells zu bewerten, sammeln wir mehrere bestehende multilinguale Aufgaben, darunter multilinguales Verständnis, Fragebeantwortung, Generierung und Übersetzung. Umfangreiche Experimente zeigen, dass PolyLM andere Open-Source-Modelle wie LLaMA und BLOOM bei multilingualen Aufgaben übertrifft, während es eine vergleichbare Leistung in Englisch beibehält. Unsere Modelle, zusammen mit den Anweisungsdaten und dem multilingualen Benchmark, sind verfügbar unter: https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.
English
Large language models (LLMs) demonstrate remarkable ability to comprehend,
reason, and generate following nature language instructions. However, the
development of LLMs has been primarily focused on high-resource languages, such
as English, thereby limiting their applicability and research in other
languages. Consequently, we present PolyLM, a multilingual LLM trained on 640
billion (B) tokens, avaliable in two model sizes: 1.7B and 13B. To enhance its
multilingual capabilities, we 1) integrate bilingual data into training data;
and 2) adopt a curriculum learning strategy that increases the proportion of
non-English data from 30% in the first stage to 60% in the final stage during
pre-training. Further, we propose a multilingual self-instruct method which
automatically generates 132.7K diverse multilingual instructions for model
fine-tuning. To assess the model's performance, we collect several existing
multilingual tasks, including multilingual understanding, question answering,
generation, and translation. Extensive experiments show that PolyLM surpasses
other open-source models such as LLaMA and BLOOM on multilingual tasks while
maintaining comparable performance in English. Our models, alone with the
instruction data and multilingual benchmark, are available at:
https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.