PolyLM: Открытая многоязычная модель большого языка
PolyLM: An Open Source Polyglot Large Language Model
July 12, 2023
Авторы: Xiangpeng Wei, Haoran Wei, Huan Lin, Tianhao Li, Pei Zhang, Xingzhang Ren, Mei Li, Yu Wan, Zhiwei Cao, Binbin Xie, Tianxiang Hu, Shangjie Li, Binyuan Hui, Bowen Yu, Dayiheng Liu, Baosong Yang, Fei Huang, Jun Xie
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют впечатляющую способность понимать, рассуждать и генерировать текст в соответствии с инструкциями на естественном языке. Однако разработка LLM в основном сосредоточена на языках с высоким уровнем ресурсов, таких как английский, что ограничивает их применимость и исследования для других языков. В связи с этим мы представляем PolyLM, многоязычную LLM, обученную на 640 миллиардах (B) токенов, доступную в двух размерах: 1.7B и 13B. Для улучшения её многоязычных возможностей мы 1) интегрируем двуязычные данные в обучающий набор и 2) применяем стратегию обучения по учебному плану, которая увеличивает долю неанглоязычных данных с 30% на первом этапе до 60% на финальном этапе предварительного обучения. Кроме того, мы предлагаем метод многоязычного самообучения, который автоматически генерирует 132.7K разнообразных многоязычных инструкций для тонкой настройки модели. Для оценки производительности модели мы собираем несколько существующих многоязычных задач, включая многоязычное понимание, ответы на вопросы, генерацию текста и перевод. Многочисленные эксперименты показывают, что PolyLM превосходит другие модели с открытым исходным кодом, такие как LLaMA и BLOOM, в многоязычных задачах, сохраняя при этом сопоставимую производительность на английском языке. Наши модели, а также данные инструкций и многоязычный бенчмарк доступны по адресу: https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.
English
Large language models (LLMs) demonstrate remarkable ability to comprehend,
reason, and generate following nature language instructions. However, the
development of LLMs has been primarily focused on high-resource languages, such
as English, thereby limiting their applicability and research in other
languages. Consequently, we present PolyLM, a multilingual LLM trained on 640
billion (B) tokens, avaliable in two model sizes: 1.7B and 13B. To enhance its
multilingual capabilities, we 1) integrate bilingual data into training data;
and 2) adopt a curriculum learning strategy that increases the proportion of
non-English data from 30% in the first stage to 60% in the final stage during
pre-training. Further, we propose a multilingual self-instruct method which
automatically generates 132.7K diverse multilingual instructions for model
fine-tuning. To assess the model's performance, we collect several existing
multilingual tasks, including multilingual understanding, question answering,
generation, and translation. Extensive experiments show that PolyLM surpasses
other open-source models such as LLaMA and BLOOM on multilingual tasks while
maintaining comparable performance in English. Our models, alone with the
instruction data and multilingual benchmark, are available at:
https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.