ChatPaper.aiChatPaper

Ein technischer Bericht zu Polyglot-Ko: Open-Source Großsprachmodelle für die koreanische Sprache

A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models

June 4, 2023
Autoren: Hyunwoong Ko, Kichang Yang, Minho Ryu, Taekyoon Choi, Seungmu Yang, jiwung Hyun, Sungho Park
cs.AI

Zusammenfassung

Polyglot ist ein wegweisendes Projekt, das darauf abzielt, die Leistung mehrsprachiger Sprachmodelle in nicht-englischen Sprachen zu verbessern. Trotz der Verfügbarkeit verschiedener mehrsprachiger Modelle wie mBERT (Devlin et al., 2019), XGLM (Lin et al., 2022) und BLOOM (Scao et al., 2022) greifen Forscher und Entwickler oft auf den Bau monolingualer Modelle in ihren jeweiligen Sprachen zurück, da sie mit den Fähigkeiten der aktuellen mehrsprachigen Modelle in nicht-englischen Sprachen unzufrieden sind. Um diese Lücke zu schließen, streben wir die Entwicklung fortschrittlicher mehrsprachiger Sprachmodelle an, die eine verbesserte Leistung in nicht-englischen Sprachen bieten. In diesem Artikel stellen wir die Polyglot-Koreanisch-Modelle vor, die einen spezifischen Fokus darstellen und nicht von Natur aus mehrsprachig sind. In Zusammenarbeit mit TUNiB hat unser Team 1,2 TB koreanischer Daten gesammelt, die sorgfältig für unsere Forschungsreise kuratiert wurden. Wir haben bewusst entschieden, die Entwicklung koreanischer Modelle zu priorisieren, bevor wir uns an mehrsprachige Modelle wagen. Diese Entscheidung wurde durch mehrere Faktoren motiviert: Erstens ermöglichten die koreanischen Modelle Leistungsvergleiche mit bestehenden mehrsprachigen Modellen; und schließlich entsprachen sie den spezifischen Bedürfnissen koreanischer Unternehmen und Forscher. Dieser Artikel präsentiert unsere Arbeit an der Entwicklung der Polyglot-Koreanisch-Modelle, die einige Schritte zur Schließung der Leistungslücke in nicht-englischen Sprachen bei mehrsprachigen Sprachmodellen vorschlagen.
English
Polyglot is a pioneering project aimed at enhancing the non-English language performance of multilingual language models. Despite the availability of various multilingual models such as mBERT (Devlin et al., 2019), XGLM (Lin et al., 2022), and BLOOM (Scao et al., 2022), researchers and developers often resort to building monolingual models in their respective languages due to the dissatisfaction with the current multilingual models non-English language capabilities. Addressing this gap, we seek to develop advanced multilingual language models that offer improved performance in non-English languages. In this paper, we introduce the Polyglot Korean models, which represent a specific focus rather than being multilingual in nature. In collaboration with TUNiB, our team collected 1.2TB of Korean data meticulously curated for our research journey. We made a deliberate decision to prioritize the development of Korean models before venturing into multilingual models. This choice was motivated by multiple factors: firstly, the Korean models facilitated performance comparisons with existing multilingual models; and finally, they catered to the specific needs of Korean companies and researchers. This paper presents our work in developing the Polyglot Korean models, which propose some steps towards addressing the non-English language performance gap in multilingual language models.
PDF111December 15, 2024