Rapport technique sur Polyglot-Ko : Modèles de langage coréens à grande échelle en open source
A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models
June 4, 2023
Auteurs: Hyunwoong Ko, Kichang Yang, Minho Ryu, Taekyoon Choi, Seungmu Yang, jiwung Hyun, Sungho Park
cs.AI
Résumé
Polyglot est un projet novateur visant à améliorer les performances des modèles de langage multilingues pour les langues non anglophones. Malgré la disponibilité de divers modèles multilingues tels que mBERT (Devlin et al., 2019), XGLM (Lin et al., 2022) et BLOOM (Scao et al., 2022), les chercheurs et développeurs se tournent souvent vers la création de modèles monolingues dans leurs langues respectives en raison de l'insatisfaction quant aux capacités actuelles des modèles multilingues pour les langues non anglophones. Pour combler cette lacune, nous cherchons à développer des modèles de langage multilingues avancés offrant de meilleures performances pour les langues non anglophones. Dans cet article, nous présentons les modèles Polyglot Korean, qui se concentrent spécifiquement sur le coréen plutôt que d'être multilingues. En collaboration avec TUNiB, notre équipe a collecté 1,2 To de données coréennes soigneusement sélectionnées pour notre recherche. Nous avons pris la décision délibérée de privilégier le développement de modèles coréens avant de nous lancer dans des modèles multilingues. Ce choix a été motivé par plusieurs facteurs : premièrement, les modèles coréens ont permis des comparaisons de performances avec les modèles multilingues existants ; et enfin, ils répondent aux besoins spécifiques des entreprises et chercheurs coréens. Cet article présente notre travail sur le développement des modèles Polyglot Korean, qui proposent des étapes pour combler l'écart de performance des langues non anglophones dans les modèles de langage multilingues.
English
Polyglot is a pioneering project aimed at enhancing the non-English language
performance of multilingual language models. Despite the availability of
various multilingual models such as mBERT (Devlin et al., 2019), XGLM (Lin et
al., 2022), and BLOOM (Scao et al., 2022), researchers and developers often
resort to building monolingual models in their respective languages due to the
dissatisfaction with the current multilingual models non-English language
capabilities. Addressing this gap, we seek to develop advanced multilingual
language models that offer improved performance in non-English languages. In
this paper, we introduce the Polyglot Korean models, which represent a specific
focus rather than being multilingual in nature. In collaboration with TUNiB,
our team collected 1.2TB of Korean data meticulously curated for our research
journey. We made a deliberate decision to prioritize the development of Korean
models before venturing into multilingual models. This choice was motivated by
multiple factors: firstly, the Korean models facilitated performance
comparisons with existing multilingual models; and finally, they catered to the
specific needs of Korean companies and researchers. This paper presents our
work in developing the Polyglot Korean models, which propose some steps towards
addressing the non-English language performance gap in multilingual language
models.