ChatPaper.aiChatPaper

KORMo:誰もが使える韓国語オープン推論モデル

KORMo: Korean Open Reasoning Model for Everyone

October 10, 2025
著者: Minjun Kim, Hyeonseok Lim, Hangyeol Yoo, Inho Won, Seungwoo Song, Minkyung Cho, Junhun Yuk, Changsu Choi, Dongjae Shin, Huige Lee, Hoyun Song, Alice Oh, Kyungtae Lim
cs.AI

要旨

本研究は、非英語言語、特に韓国語を対象とした完全オープンなバイリンガル大規模言語モデル(LLM)を構築する初の大規模な調査を提示する。主に合成データを用いて訓練されたKORMo-10Bという10.8Bパラメータのモデルを紹介する。このモデルは、韓国語-英語コーパスからスクラッチで訓練され、韓国語部分の68.74%が合成データである。体系的な実験を通じて、言語的カバレッジがバランス良く、多様な指示スタイルで慎重にキュレーションされた合成データは、大規模な事前学習中に不安定性や性能低下を引き起こさないことを実証する。さらに、このモデルは、推論、知識、指示追従のベンチマークにおいて、現代のオープンウェイト多言語ベースラインと同等の性能を達成する。我々の実験から得られた2つの重要な知見は次の通りである:(1) 合成データはモデルの崩壊を引き起こすことなく、長期間の事前学習を確実に維持できる、(2) バイリンガルな指示チューニングにより、韓国語でのネイティブに近い推論と談話の一貫性が可能になる。データ、コード、訓練レシピ、ログを含む全てのコンポーネントを完全に公開することで、本研究は低リソース環境における合成データ駆動型の完全オープンモデル(FOM)を開発するための透明性のあるフレームワークを確立し、将来の多言語LLM研究のための再現可能な先例を設定する。
English
This work presents the first large-scale investigation into constructing a fully open bilingual large language model (LLM) for a non-English language, specifically Korean, trained predominantly on synthetic data. We introduce KORMo-10B, a 10.8B-parameter model trained from scratch on a Korean-English corpus in which 68.74% of the Korean portion is synthetic. Through systematic experimentation, we demonstrate that synthetic data, when carefully curated with balanced linguistic coverage and diverse instruction styles, does not cause instability or degradation during large-scale pretraining. Furthermore, the model achieves performance comparable to that of contemporary open-weight multilingual baselines across a wide range of reasoning, knowledge, and instruction-following benchmarks. Our experiments reveal two key findings: (1) synthetic data can reliably sustain long-horizon pretraining without model collapse, and (2) bilingual instruction tuning enables near-native reasoning and discourse coherence in Korean. By fully releasing all components including data, code, training recipes, and logs, this work establishes a transparent framework for developing synthetic data-driven fully open models (FOMs) in low-resource settings and sets a reproducible precedent for future multilingual LLM research.
PDF692October 13, 2025