PolyLM: Открытая многоязычная модель большого языка

Аннотация

Крупные языковые модели (LLM) демонстрируют впечатляющую способность понимать, рассуждать и генерировать текст в соответствии с инструкциями на естественном языке. Однако разработка LLM в основном сосредоточена на языках с высоким уровнем ресурсов, таких как английский, что ограничивает их применимость и исследования для других языков. В связи с этим мы представляем PolyLM, многоязычную LLM, обученную на 640 миллиардах (B) токенов, доступную в двух размерах: 1.7B и 13B. Для улучшения её многоязычных возможностей мы 1) интегрируем двуязычные данные в обучающий набор и 2) применяем стратегию обучения по учебному плану, которая увеличивает долю неанглоязычных данных с 30% на первом этапе до 60% на финальном этапе предварительного обучения. Кроме того, мы предлагаем метод многоязычного самообучения, который автоматически генерирует 132.7K разнообразных многоязычных инструкций для тонкой настройки модели. Для оценки производительности модели мы собираем несколько существующих многоязычных задач, включая многоязычное понимание, ответы на вопросы, генерацию текста и перевод. Многочисленные эксперименты показывают, что PolyLM превосходит другие модели с открытым исходным кодом, такие как LLaMA и BLOOM, в многоязычных задачах, сохраняя при этом сопоставимую производительность на английском языке. Наши модели, а также данные инструкций и многоязычный бенчмарк доступны по адресу: https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.

English

Large language models (LLMs) demonstrate remarkable ability to comprehend, reason, and generate following nature language instructions. However, the development of LLMs has been primarily focused on high-resource languages, such as English, thereby limiting their applicability and research in other languages. Consequently, we present PolyLM, a multilingual LLM trained on 640 billion (B) tokens, avaliable in two model sizes: 1.7B and 13B. To enhance its multilingual capabilities, we 1) integrate bilingual data into training data; and 2) adopt a curriculum learning strategy that increases the proportion of non-English data from 30% in the first stage to 60% in the final stage during pre-training. Further, we propose a multilingual self-instruct method which automatically generates 132.7K diverse multilingual instructions for model fine-tuning. To assess the model's performance, we collect several existing multilingual tasks, including multilingual understanding, question answering, generation, and translation. Extensive experiments show that PolyLM surpasses other open-source models such as LLaMA and BLOOM on multilingual tasks while maintaining comparable performance in English. Our models, alone with the instruction data and multilingual benchmark, are available at: https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.

PolyLM: Открытая многоязычная модель большого языка

PolyLM: An Open Source Polyglot Large Language Model

Аннотация

Support