Um Relatório Técnico para Polyglot-Ko: Modelos de Linguagem de Grande Escala em Coreano de Código Aberto

Resumo

O Polyglot é um projeto pioneiro que visa aprimorar o desempenho de modelos de linguagem multilíngue em idiomas não ingleses. Apesar da disponibilidade de diversos modelos multilíngues, como mBERT (Devlin et al., 2019), XGLM (Lin et al., 2022) e BLOOM (Scao et al., 2022), pesquisadores e desenvolvedores frequentemente recorrem à construção de modelos monolíngues em seus respectivos idiomas devido à insatisfação com as capacidades atuais dos modelos multilíngues em línguas não inglesas. Para preencher essa lacuna, buscamos desenvolver modelos de linguagem multilíngue avançados que ofereçam um desempenho melhorado em idiomas não ingleses. Neste artigo, apresentamos os modelos Polyglot Korean, que representam um foco específico em vez de serem multilíngues por natureza. Em colaboração com a TUNiB, nossa equipe coletou 1,2 TB de dados coreanos meticulosamente curados para nossa jornada de pesquisa. Tomamos a decisão deliberada de priorizar o desenvolvimento de modelos coreanos antes de nos aventurarmos em modelos multilíngues. Essa escolha foi motivada por vários fatores: em primeiro lugar, os modelos coreanos facilitaram comparações de desempenho com modelos multilíngues existentes; e, finalmente, eles atenderam às necessidades específicas de empresas e pesquisadores coreanos. Este artigo apresenta nosso trabalho no desenvolvimento dos modelos Polyglot Korean, que propõem alguns passos para abordar a lacuna de desempenho em idiomas não ingleses em modelos de linguagem multilíngue.

English

Polyglot is a pioneering project aimed at enhancing the non-English language performance of multilingual language models. Despite the availability of various multilingual models such as mBERT (Devlin et al., 2019), XGLM (Lin et al., 2022), and BLOOM (Scao et al., 2022), researchers and developers often resort to building monolingual models in their respective languages due to the dissatisfaction with the current multilingual models non-English language capabilities. Addressing this gap, we seek to develop advanced multilingual language models that offer improved performance in non-English languages. In this paper, we introduce the Polyglot Korean models, which represent a specific focus rather than being multilingual in nature. In collaboration with TUNiB, our team collected 1.2TB of Korean data meticulously curated for our research journey. We made a deliberate decision to prioritize the development of Korean models before venturing into multilingual models. This choice was motivated by multiple factors: firstly, the Korean models facilitated performance comparisons with existing multilingual models; and finally, they catered to the specific needs of Korean companies and researchers. This paper presents our work in developing the Polyglot Korean models, which propose some steps towards addressing the non-English language performance gap in multilingual language models.

Um Relatório Técnico para Polyglot-Ko: Modelos de Linguagem de Grande Escala em Coreano de Código Aberto

A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models

Resumo

Support