Un Informe Técnico sobre Polyglot-Ko: Modelos de Lenguaje Coreano de Gran Escala de Código Abierto
A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models
June 4, 2023
Autores: Hyunwoong Ko, Kichang Yang, Minho Ryu, Taekyoon Choi, Seungmu Yang, jiwung Hyun, Sungho Park
cs.AI
Resumen
Polyglot es un proyecto pionero destinado a mejorar el rendimiento en idiomas no ingleses de los modelos de lenguaje multilingüe. A pesar de la disponibilidad de varios modelos multilingües como mBERT (Devlin et al., 2019), XGLM (Lin et al., 2022) y BLOOM (Scao et al., 2022), investigadores y desarrolladores a menudo recurren a construir modelos monolingües en sus respectivos idiomas debido a la insatisfacción con las capacidades de los modelos multilingües actuales en lenguas no inglesas. Para abordar esta brecha, buscamos desarrollar modelos de lenguaje multilingüe avanzados que ofrezcan un mejor rendimiento en idiomas no ingleses. En este artículo, presentamos los modelos Polyglot Korean, que representan un enfoque específico en lugar de ser multilingües por naturaleza. En colaboración con TUNiB, nuestro equipo recopiló 1.2 TB de datos en coreano meticulosamente curados para nuestra investigación. Tomamos la decisión deliberada de priorizar el desarrollo de modelos en coreano antes de incursionar en modelos multilingües. Esta elección fue motivada por múltiples factores: en primer lugar, los modelos en coreano facilitaron comparaciones de rendimiento con los modelos multilingües existentes; y finalmente, atendieron a las necesidades específicas de empresas e investigadores coreanos. Este artículo presenta nuestro trabajo en el desarrollo de los modelos Polyglot Korean, que proponen algunos pasos hacia la solución de la brecha de rendimiento en idiomas no ingleses en los modelos de lenguaje multilingüe.
English
Polyglot is a pioneering project aimed at enhancing the non-English language
performance of multilingual language models. Despite the availability of
various multilingual models such as mBERT (Devlin et al., 2019), XGLM (Lin et
al., 2022), and BLOOM (Scao et al., 2022), researchers and developers often
resort to building monolingual models in their respective languages due to the
dissatisfaction with the current multilingual models non-English language
capabilities. Addressing this gap, we seek to develop advanced multilingual
language models that offer improved performance in non-English languages. In
this paper, we introduce the Polyglot Korean models, which represent a specific
focus rather than being multilingual in nature. In collaboration with TUNiB,
our team collected 1.2TB of Korean data meticulously curated for our research
journey. We made a deliberate decision to prioritize the development of Korean
models before venturing into multilingual models. This choice was motivated by
multiple factors: firstly, the Korean models facilitated performance
comparisons with existing multilingual models; and finally, they catered to the
specific needs of Korean companies and researchers. This paper presents our
work in developing the Polyglot Korean models, which propose some steps towards
addressing the non-English language performance gap in multilingual language
models.