Технический отчет по Polyglot-Ko: Модели обработки корейского языка с открытым исходным кодом для работы с большими объемами данных
A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models
June 4, 2023
Авторы: Hyunwoong Ko, Kichang Yang, Minho Ryu, Taekyoon Choi, Seungmu Yang, jiwung Hyun, Sungho Park
cs.AI
Аннотация
Polyglot — это новаторский проект, направленный на улучшение производительности многоязычных языковых моделей для неанглийских языков. Несмотря на доступность различных многоязычных моделей, таких как mBERT (Devlin et al., 2019), XGLM (Lin et al., 2022) и BLOOM (Scao et al., 2022), исследователи и разработчики часто прибегают к созданию одноязычных моделей для своих языков из-за неудовлетворённости текущими возможностями многоязычных моделей в работе с неанглийскими языками. Стремясь устранить этот пробел, мы разрабатываем продвинутые многоязычные языковые модели, которые обеспечивают улучшенную производительность для неанглийских языков. В данной статье мы представляем модели Polyglot Korean, которые сосредоточены на конкретном языке, а не на многоязычности. В сотрудничестве с TUNiB наша команда собрала 1,2 ТБ корейских данных, тщательно отобранных для нашего исследования. Мы сознательно решили сосредоточиться на разработке корейских моделей, прежде чем переходить к многоязычным. Этот выбор был обусловлен несколькими факторами: во-первых, корейские модели позволили провести сравнение производительности с существующими многоязычными моделями; и, наконец, они отвечали конкретным потребностям корейских компаний и исследователей. В этой статье представлена наша работа по созданию моделей Polyglot Korean, которые предлагают шаги к устранению разрыва в производительности для неанглийских языков в многоязычных языковых моделях.
English
Polyglot is a pioneering project aimed at enhancing the non-English language
performance of multilingual language models. Despite the availability of
various multilingual models such as mBERT (Devlin et al., 2019), XGLM (Lin et
al., 2022), and BLOOM (Scao et al., 2022), researchers and developers often
resort to building monolingual models in their respective languages due to the
dissatisfaction with the current multilingual models non-English language
capabilities. Addressing this gap, we seek to develop advanced multilingual
language models that offer improved performance in non-English languages. In
this paper, we introduce the Polyglot Korean models, which represent a specific
focus rather than being multilingual in nature. In collaboration with TUNiB,
our team collected 1.2TB of Korean data meticulously curated for our research
journey. We made a deliberate decision to prioritize the development of Korean
models before venturing into multilingual models. This choice was motivated by
multiple factors: firstly, the Korean models facilitated performance
comparisons with existing multilingual models; and finally, they catered to the
specific needs of Korean companies and researchers. This paper presents our
work in developing the Polyglot Korean models, which propose some steps towards
addressing the non-English language performance gap in multilingual language
models.