Polyglot-Ko技術レポート:オープンソース大規模韓国語言語モデル
A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models
June 4, 2023
著者: Hyunwoong Ko, Kichang Yang, Minho Ryu, Taekyoon Choi, Seungmu Yang, jiwung Hyun, Sungho Park
cs.AI
要旨
Polyglotは、多言語言語モデルの非英語言語性能を向上させることを目的とした先駆的なプロジェクトです。mBERT(Devlin et al., 2019)、XGLM(Lin et al., 2022)、BLOOM(Scao et al., 2022)など、さまざまな多言語モデルが利用可能であるにもかかわらず、研究者や開発者は、現在の多言語モデルの非英語言語能力に不満を抱き、しばしばそれぞれの言語で単一言語モデルを構築することを選択しています。このギャップを埋めるため、私たちは非英語言語において改善された性能を提供する高度な多言語言語モデルの開発を目指しています。本論文では、多言語モデルではなく特定の言語に焦点を当てたPolyglot Koreanモデルを紹介します。TUNiBとの協力により、私たちのチームは研究の旅路のために慎重に選別された1.2TBの韓国語データを収集しました。私たちは、多言語モデルに着手する前に韓国語モデルの開発を優先するという意図的な決定を下しました。この選択は、いくつかの要因によって動機づけられています。まず、韓国語モデルは既存の多言語モデルとの性能比較を容易にし、最後に、韓国の企業や研究者の特定のニーズに対応するためです。本論文では、多言語言語モデルの非英語言語性能のギャップに対処するためのいくつかのステップを提案するPolyglot Koreanモデルの開発に関する私たちの取り組みを紹介します。
English
Polyglot is a pioneering project aimed at enhancing the non-English language
performance of multilingual language models. Despite the availability of
various multilingual models such as mBERT (Devlin et al., 2019), XGLM (Lin et
al., 2022), and BLOOM (Scao et al., 2022), researchers and developers often
resort to building monolingual models in their respective languages due to the
dissatisfaction with the current multilingual models non-English language
capabilities. Addressing this gap, we seek to develop advanced multilingual
language models that offer improved performance in non-English languages. In
this paper, we introduce the Polyglot Korean models, which represent a specific
focus rather than being multilingual in nature. In collaboration with TUNiB,
our team collected 1.2TB of Korean data meticulously curated for our research
journey. We made a deliberate decision to prioritize the development of Korean
models before venturing into multilingual models. This choice was motivated by
multiple factors: firstly, the Korean models facilitated performance
comparisons with existing multilingual models; and finally, they catered to the
specific needs of Korean companies and researchers. This paper presents our
work in developing the Polyglot Korean models, which propose some steps towards
addressing the non-English language performance gap in multilingual language
models.