ChatPaper.aiChatPaper

Polyglot-Ko 기술 보고서: 오픈소스 대규모 한국어 언어 모델

A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models

June 4, 2023
저자: Hyunwoong Ko, Kichang Yang, Minho Ryu, Taekyoon Choi, Seungmu Yang, jiwung Hyun, Sungho Park
cs.AI

초록

Polyglot은 다국어 언어 모델의 비영어 성능을 향상시키기 위한 선구적인 프로젝트입니다. mBERT(Devlin et al., 2019), XGLM(Lin et al., 2022), BLOOM(Scao et al., 2022)와 같은 다양한 다국어 모델이 존재함에도 불구하고, 연구자와 개발자들은 현재의 다국어 모델이 비영어 언어에서 보여주는 성능에 만족하지 못해 각자의 언어로 단일 언어 모델을 구축하는 경우가 많습니다. 이러한 격차를 해소하기 위해, 우리는 비영어 언어에서 더 나은 성능을 제공하는 고급 다국어 언어 모델을 개발하고자 합니다. 본 논문에서는 다국어 모델이 아닌 특정 언어에 초점을 맞춘 Polyglot 한국어 모델을 소개합니다. TUNiB와의 협력을 통해, 우리 팀은 연구 여정을 위해 세심하게 선별된 1.2TB의 한국어 데이터를 수집했습니다. 우리는 다국어 모델을 개발하기 전에 한국어 모델 개발을 우선적으로 진행하기로 결정했습니다. 이 결정은 여러 가지 이유에서 비롯되었습니다: 첫째, 한국어 모델은 기존 다국어 모델과의 성능 비교를 용이하게 했으며, 마지막으로 한국 기업과 연구자들의 특정 요구를 충족시키기 위함이었습니다. 본 논문은 다국어 언어 모델의 비영어 성능 격차를 해결하기 위한 몇 가지 단계를 제안하는 Polyglot 한국어 모델 개발 작업을 소개합니다.
English
Polyglot is a pioneering project aimed at enhancing the non-English language performance of multilingual language models. Despite the availability of various multilingual models such as mBERT (Devlin et al., 2019), XGLM (Lin et al., 2022), and BLOOM (Scao et al., 2022), researchers and developers often resort to building monolingual models in their respective languages due to the dissatisfaction with the current multilingual models non-English language capabilities. Addressing this gap, we seek to develop advanced multilingual language models that offer improved performance in non-English languages. In this paper, we introduce the Polyglot Korean models, which represent a specific focus rather than being multilingual in nature. In collaboration with TUNiB, our team collected 1.2TB of Korean data meticulously curated for our research journey. We made a deliberate decision to prioritize the development of Korean models before venturing into multilingual models. This choice was motivated by multiple factors: firstly, the Korean models facilitated performance comparisons with existing multilingual models; and finally, they catered to the specific needs of Korean companies and researchers. This paper presents our work in developing the Polyglot Korean models, which propose some steps towards addressing the non-English language performance gap in multilingual language models.
PDF111December 15, 2024