KORMo : Modèle Coréen de Raisonnement Ouvert pour Tous
KORMo: Korean Open Reasoning Model for Everyone
October 10, 2025
papers.authors: Minjun Kim, Hyeonseok Lim, Hangyeol Yoo, Inho Won, Seungwoo Song, Minkyung Cho, Junhun Yuk, Changsu Choi, Dongjae Shin, Huige Lee, Hoyun Song, Alice Oh, Kyungtae Lim
cs.AI
papers.abstract
Ce travail présente la première investigation à grande échelle sur la construction d'un modèle de langage massivement bilingue (LLM) entièrement ouvert pour une langue non anglaise, en l'occurrence le coréen, entraîné principalement sur des données synthétiques. Nous introduisons KORMo-10B, un modèle de 10,8 milliards de paramètres entraîné à partir de zéro sur un corpus coréen-anglais dont 68,74 % de la partie coréenne est synthétique. À travers une expérimentation systématique, nous démontrons que les données synthétiques, lorsqu'elles sont soigneusement sélectionnées avec une couverture linguistique équilibrée et des styles d'instruction diversifiés, ne provoquent ni instabilité ni dégradation lors de l'entraînement préalable à grande échelle. De plus, le modèle atteint des performances comparables à celles des modèles multilingues contemporains à poids ouverts sur un large éventail de benchmarks de raisonnement, de connaissances et de suivi d'instructions. Nos expériences révèlent deux conclusions majeures : (1) les données synthétiques peuvent soutenir de manière fiable un entraînement préalable à long terme sans effondrement du modèle, et (2) le réglage d'instruction bilingue permet un raisonnement et une cohérence discursive quasi-natifs en coréen. En publiant intégralement tous les composants, y compris les données, le code, les recettes d'entraînement et les journaux, ce travail établit un cadre transparent pour le développement de modèles entièrement ouverts (FOMs) basés sur des données synthétiques dans des contextes à faibles ressources et fixe un précédent reproductible pour les futures recherches sur les LLM multilingues.
English
This work presents the first large-scale investigation into constructing a
fully open bilingual large language model (LLM) for a non-English language,
specifically Korean, trained predominantly on synthetic data. We introduce
KORMo-10B, a 10.8B-parameter model trained from scratch on a Korean-English
corpus in which 68.74% of the Korean portion is synthetic. Through systematic
experimentation, we demonstrate that synthetic data, when carefully curated
with balanced linguistic coverage and diverse instruction styles, does not
cause instability or degradation during large-scale pretraining. Furthermore,
the model achieves performance comparable to that of contemporary open-weight
multilingual baselines across a wide range of reasoning, knowledge, and
instruction-following benchmarks. Our experiments reveal two key findings: (1)
synthetic data can reliably sustain long-horizon pretraining without model
collapse, and (2) bilingual instruction tuning enables near-native reasoning
and discourse coherence in Korean. By fully releasing all components including
data, code, training recipes, and logs, this work establishes a transparent
framework for developing synthetic data-driven fully open models (FOMs) in
low-resource settings and sets a reproducible precedent for future multilingual
LLM research.