Een Technisch Rapport voor Polyglot-Ko: Open-Source Grootschalige Koreaanse Taalmodellen
A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models
June 4, 2023
Auteurs: Hyunwoong Ko, Kichang Yang, Minho Ryu, Taekyoon Choi, Seungmu Yang, jiwung Hyun, Sungho Park
cs.AI
Samenvatting
Polyglot is een baanbrekend project dat gericht is op het verbeteren van de prestaties van meertalige taalmodellen voor niet-Engelse talen. Ondanks de beschikbaarheid van verschillende meertalige modellen zoals mBERT (Devlin et al., 2019), XGLM (Lin et al., 2022) en BLOOM (Scao et al., 2022), grijpen onderzoekers en ontwikkelaars vaak terug op het bouwen van eentalige modellen in hun respectievelijke talen vanwege de ontevredenheid over de huidige prestaties van meertalige modellen voor niet-Engelse talen. Om deze kloof te overbruggen, streven we ernaar om geavanceerde meertalige taalmodellen te ontwikkelen die betere prestaties bieden in niet-Engelse talen. In dit artikel introduceren we de Polyglot Koreaanse modellen, die een specifieke focus hebben in plaats van meertalig van aard te zijn. In samenwerking met TUNiB heeft ons team 1,2 TB aan Koreaanse data verzameld, die zorgvuldig zijn gecureerd voor ons onderzoeksproces. We hebben bewust gekozen om de ontwikkeling van Koreaanse modellen te prioriteren voordat we ons op meertalige modellen richtten. Deze keuze werd ingegeven door meerdere factoren: ten eerste maakten de Koreaanse modellen prestatievergelijkingen met bestaande meertalige modellen mogelijk; en ten slotte speelden ze in op de specifieke behoeften van Koreaanse bedrijven en onderzoekers. Dit artikel presenteert ons werk aan de ontwikkeling van de Polyglot Koreaanse modellen, die enkele stappen voorstellen om de prestatiekloof voor niet-Engelse talen in meertalige taalmodellen aan te pakken.
English
Polyglot is a pioneering project aimed at enhancing the non-English language
performance of multilingual language models. Despite the availability of
various multilingual models such as mBERT (Devlin et al., 2019), XGLM (Lin et
al., 2022), and BLOOM (Scao et al., 2022), researchers and developers often
resort to building monolingual models in their respective languages due to the
dissatisfaction with the current multilingual models non-English language
capabilities. Addressing this gap, we seek to develop advanced multilingual
language models that offer improved performance in non-English languages. In
this paper, we introduce the Polyglot Korean models, which represent a specific
focus rather than being multilingual in nature. In collaboration with TUNiB,
our team collected 1.2TB of Korean data meticulously curated for our research
journey. We made a deliberate decision to prioritize the development of Korean
models before venturing into multilingual models. This choice was motivated by
multiple factors: firstly, the Korean models facilitated performance
comparisons with existing multilingual models; and finally, they catered to the
specific needs of Korean companies and researchers. This paper presents our
work in developing the Polyglot Korean models, which propose some steps towards
addressing the non-English language performance gap in multilingual language
models.