KORMo: Koreanisches Open Reasoning Modell für alle
KORMo: Korean Open Reasoning Model for Everyone
October 10, 2025
papers.authors: Minjun Kim, Hyeonseok Lim, Hangyeol Yoo, Inho Won, Seungwoo Song, Minkyung Cho, Junhun Yuk, Changsu Choi, Dongjae Shin, Huige Lee, Hoyun Song, Alice Oh, Kyungtae Lim
cs.AI
papers.abstract
Diese Arbeit präsentiert die erste groß angelegte Untersuchung zur Konstruktion eines vollständig offenen bilingualen Large Language Models (LLM) für eine nicht-englische Sprache, speziell Koreanisch, das überwiegend auf synthetischen Daten trainiert wurde. Wir stellen KORMo-10B vor, ein Modell mit 10,8 Milliarden Parametern, das von Grund auf einem koreanisch-englischen Korpus trainiert wurde, wobei 68,74 % des koreanischen Anteils synthetisch sind. Durch systematische Experimente zeigen wir, dass synthetische Daten, wenn sie sorgfältig mit ausgewogener linguistischer Abdeckung und diversen Instruktionsstilen kuratiert werden, keine Instabilität oder Verschlechterung während des groß angelegten Pretrainings verursachen. Darüber hinaus erreicht das Modell eine Leistung, die mit der zeitgenössischer Open-Weight-Multilingual-Baselines über eine breite Palette von Reasoning-, Wissens- und Instruktionsfolge-Benchmarks vergleichbar ist. Unsere Experimente offenbaren zwei zentrale Erkenntnisse: (1) synthetische Daten können zuverlässig langfristiges Pretraining ohne Modellkollaps unterstützen, und (2) bilinguales Instruction-Tuning ermöglicht nahezu muttersprachliches Reasoning und Diskurskohärenz in Koreanisch. Durch die vollständige Veröffentlichung aller Komponenten, einschließlich Daten, Code, Trainingsrezepten und Protokollen, etabliert diese Arbeit einen transparenten Rahmen für die Entwicklung synthetischer datengetriebener vollständig offener Modelle (FOMs) in ressourcenarmen Umgebungen und setzt einen reproduzierbaren Präzedenzfall für zukünftige multilinguale LLM-Forschung.
English
This work presents the first large-scale investigation into constructing a
fully open bilingual large language model (LLM) for a non-English language,
specifically Korean, trained predominantly on synthetic data. We introduce
KORMo-10B, a 10.8B-parameter model trained from scratch on a Korean-English
corpus in which 68.74% of the Korean portion is synthetic. Through systematic
experimentation, we demonstrate that synthetic data, when carefully curated
with balanced linguistic coverage and diverse instruction styles, does not
cause instability or degradation during large-scale pretraining. Furthermore,
the model achieves performance comparable to that of contemporary open-weight
multilingual baselines across a wide range of reasoning, knowledge, and
instruction-following benchmarks. Our experiments reveal two key findings: (1)
synthetic data can reliably sustain long-horizon pretraining without model
collapse, and (2) bilingual instruction tuning enables near-native reasoning
and discourse coherence in Korean. By fully releasing all components including
data, code, training recipes, and logs, this work establishes a transparent
framework for developing synthetic data-driven fully open models (FOMs) in
low-resource settings and sets a reproducible precedent for future multilingual
LLM research.