Un Rapporto Tecnico su Polyglot-Ko: Modelli Linguistici Coreani Open-Source su Larga Scala

Abstract

Polyglot è un progetto pionieristico volto a migliorare le prestazioni in lingue non inglesi dei modelli linguistici multilingue. Nonostante la disponibilità di vari modelli multilingue come mBERT (Devlin et al., 2019), XGLM (Lin et al., 2022) e BLOOM (Scao et al., 2022), ricercatori e sviluppatori spesso ricorrono alla creazione di modelli monolingue nelle rispettive lingue a causa dell'insoddisfazione per le attuali capacità dei modelli multilingue nelle lingue non inglesi. Affrontando questa lacuna, cerchiamo di sviluppare modelli linguistici multilingue avanzati che offrano prestazioni migliorate nelle lingue non inglesi. In questo articolo, presentiamo i modelli Polyglot Korean, che rappresentano un focus specifico piuttosto che essere di natura multilingue. In collaborazione con TUNiB, il nostro team ha raccolto 1,2 TB di dati coreani accuratamente curati per il nostro percorso di ricerca. Abbiamo preso una decisione deliberata di dare priorità allo sviluppo di modelli coreani prima di avventurarci in modelli multilingue. Questa scelta è stata motivata da diversi fattori: in primo luogo, i modelli coreani hanno facilitato il confronto delle prestazioni con i modelli multilingue esistenti; e infine, hanno soddisfatto le esigenze specifiche delle aziende e dei ricercatori coreani. Questo articolo presenta il nostro lavoro nello sviluppo dei modelli Polyglot Korean, che propongono alcuni passi verso il superamento del divario di prestazioni nelle lingue non inglesi nei modelli linguistici multilingue.

English

Polyglot is a pioneering project aimed at enhancing the non-English language performance of multilingual language models. Despite the availability of various multilingual models such as mBERT (Devlin et al., 2019), XGLM (Lin et al., 2022), and BLOOM (Scao et al., 2022), researchers and developers often resort to building monolingual models in their respective languages due to the dissatisfaction with the current multilingual models non-English language capabilities. Addressing this gap, we seek to develop advanced multilingual language models that offer improved performance in non-English languages. In this paper, we introduce the Polyglot Korean models, which represent a specific focus rather than being multilingual in nature. In collaboration with TUNiB, our team collected 1.2TB of Korean data meticulously curated for our research journey. We made a deliberate decision to prioritize the development of Korean models before venturing into multilingual models. This choice was motivated by multiple factors: firstly, the Korean models facilitated performance comparisons with existing multilingual models; and finally, they catered to the specific needs of Korean companies and researchers. This paper presents our work in developing the Polyglot Korean models, which propose some steps towards addressing the non-English language performance gap in multilingual language models.

Un Rapporto Tecnico su Polyglot-Ko: Modelli Linguistici Coreani Open-Source su Larga Scala

A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models

Abstract

Support