PolyLM: Ein Open-Source-Polyglottes Großes Sprachmodell

Zusammenfassung

Große Sprachmodelle (LLMs) zeigen eine bemerkenswerte Fähigkeit, natürliche Sprachanweisungen zu verstehen, zu schlussfolgern und zu generieren. Die Entwicklung von LLMs konzentrierte sich jedoch hauptsächlich auf Hochressourcensprachen wie Englisch, was ihre Anwendbarkeit und Forschung in anderen Sprachen einschränkt. Daher stellen wir PolyLM vor, ein multilinguales LLM, das auf 640 Milliarden (B) Tokens trainiert wurde und in zwei Modellgrößen verfügbar ist: 1,7B und 13B. Um seine multilingualen Fähigkeiten zu verbessern, 1) integrieren wir bilinguale Daten in die Trainingsdaten und 2) verwenden wir eine Curriculum-Learning-Strategie, die den Anteil nicht-englischer Daten von 30 % in der ersten Phase auf 60 % in der letzten Phase während des Pre-Trainings erhöht. Darüber hinaus schlagen wir eine multilinguale Self-Instruct-Methode vor, die automatisch 132,7K diverse multilinguale Anweisungen für die Modellfeinabstimmung generiert. Um die Leistung des Modells zu bewerten, sammeln wir mehrere bestehende multilinguale Aufgaben, darunter multilinguales Verständnis, Fragebeantwortung, Generierung und Übersetzung. Umfangreiche Experimente zeigen, dass PolyLM andere Open-Source-Modelle wie LLaMA und BLOOM bei multilingualen Aufgaben übertrifft, während es eine vergleichbare Leistung in Englisch beibehält. Unsere Modelle, zusammen mit den Anweisungsdaten und dem multilingualen Benchmark, sind verfügbar unter: https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.

English

Large language models (LLMs) demonstrate remarkable ability to comprehend, reason, and generate following nature language instructions. However, the development of LLMs has been primarily focused on high-resource languages, such as English, thereby limiting their applicability and research in other languages. Consequently, we present PolyLM, a multilingual LLM trained on 640 billion (B) tokens, avaliable in two model sizes: 1.7B and 13B. To enhance its multilingual capabilities, we 1) integrate bilingual data into training data; and 2) adopt a curriculum learning strategy that increases the proportion of non-English data from 30% in the first stage to 60% in the final stage during pre-training. Further, we propose a multilingual self-instruct method which automatically generates 132.7K diverse multilingual instructions for model fine-tuning. To assess the model's performance, we collect several existing multilingual tasks, including multilingual understanding, question answering, generation, and translation. Extensive experiments show that PolyLM surpasses other open-source models such as LLaMA and BLOOM on multilingual tasks while maintaining comparable performance in English. Our models, alone with the instruction data and multilingual benchmark, are available at: https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.

PolyLM: Ein Open-Source-Polyglottes Großes Sprachmodell

PolyLM: An Open Source Polyglot Large Language Model

Zusammenfassung

Support