KORMo: Koreaans Open Redeneermodel voor Iedereen
KORMo: Korean Open Reasoning Model for Everyone
October 10, 2025
Auteurs: Minjun Kim, Hyeonseok Lim, Hangyeol Yoo, Inho Won, Seungwoo Song, Minkyung Cho, Junhun Yuk, Changsu Choi, Dongjae Shin, Huige Lee, Hoyun Song, Alice Oh, Kyungtae Lim
cs.AI
Samenvatting
Dit werk presenteert het eerste grootschalige onderzoek naar de constructie van een volledig open bilingue groot taalmodel (LLM) voor een niet-Engelse taal, specifiek Koreaans, getraind voornamelijk op synthetische data. We introduceren KORMo-10B, een model met 10,8 miljard parameters dat vanaf nul is getraind op een Koreaans-Engels corpus waarin 68,74% van het Koreaanse deel synthetisch is. Door systematisch experimenteren tonen we aan dat synthetische data, wanneer zorgvuldig samengesteld met een gebalanceerde linguïstische dekking en diverse instructiestijlen, geen instabiliteit of degradatie veroorzaakt tijdens grootschalige voorafgaande training. Bovendien bereikt het model prestaties die vergelijkbaar zijn met die van hedendaagse open-weight meertalige baselines over een breed scala aan redeneer-, kennis- en instructievolgbeproevingen. Onze experimenten onthullen twee belangrijke bevindingen: (1) synthetische data kan betrouwbaar langdurige voorafgaande training ondersteunen zonder modelcollaps, en (2) bilingue instructieafstemming maakt bijna-moedertaalredenering en discourscoherentie in het Koreaans mogelijk. Door alle componenten, inclusief data, code, trainingsrecepten en logs volledig vrij te geven, stelt dit werk een transparant kader vast voor de ontwikkeling van synthetische data-gedreven volledig open modellen (FOMs) in omgevingen met weinig bronnen en zet het een reproduceerbaar precedent voor toekomstig meertalig LLM-onderzoek.
English
This work presents the first large-scale investigation into constructing a
fully open bilingual large language model (LLM) for a non-English language,
specifically Korean, trained predominantly on synthetic data. We introduce
KORMo-10B, a 10.8B-parameter model trained from scratch on a Korean-English
corpus in which 68.74% of the Korean portion is synthetic. Through systematic
experimentation, we demonstrate that synthetic data, when carefully curated
with balanced linguistic coverage and diverse instruction styles, does not
cause instability or degradation during large-scale pretraining. Furthermore,
the model achieves performance comparable to that of contemporary open-weight
multilingual baselines across a wide range of reasoning, knowledge, and
instruction-following benchmarks. Our experiments reveal two key findings: (1)
synthetic data can reliably sustain long-horizon pretraining without model
collapse, and (2) bilingual instruction tuning enables near-native reasoning
and discourse coherence in Korean. By fully releasing all components including
data, code, training recipes, and logs, this work establishes a transparent
framework for developing synthetic data-driven fully open models (FOMs) in
low-resource settings and sets a reproducible precedent for future multilingual
LLM research.