ChatPaper.aiChatPaper

KORMo : Modèle Coréen de Raisonnement Ouvert pour Tous

KORMo: Korean Open Reasoning Model for Everyone

October 10, 2025
papers.authors: Minjun Kim, Hyeonseok Lim, Hangyeol Yoo, Inho Won, Seungwoo Song, Minkyung Cho, Junhun Yuk, Changsu Choi, Dongjae Shin, Huige Lee, Hoyun Song, Alice Oh, Kyungtae Lim
cs.AI

papers.abstract

Ce travail présente la première investigation à grande échelle sur la construction d'un modèle de langage massivement bilingue (LLM) entièrement ouvert pour une langue non anglaise, en l'occurrence le coréen, entraîné principalement sur des données synthétiques. Nous introduisons KORMo-10B, un modèle de 10,8 milliards de paramètres entraîné à partir de zéro sur un corpus coréen-anglais dont 68,74 % de la partie coréenne est synthétique. À travers une expérimentation systématique, nous démontrons que les données synthétiques, lorsqu'elles sont soigneusement sélectionnées avec une couverture linguistique équilibrée et des styles d'instruction diversifiés, ne provoquent ni instabilité ni dégradation lors de l'entraînement préalable à grande échelle. De plus, le modèle atteint des performances comparables à celles des modèles multilingues contemporains à poids ouverts sur un large éventail de benchmarks de raisonnement, de connaissances et de suivi d'instructions. Nos expériences révèlent deux conclusions majeures : (1) les données synthétiques peuvent soutenir de manière fiable un entraînement préalable à long terme sans effondrement du modèle, et (2) le réglage d'instruction bilingue permet un raisonnement et une cohérence discursive quasi-natifs en coréen. En publiant intégralement tous les composants, y compris les données, le code, les recettes d'entraînement et les journaux, ce travail établit un cadre transparent pour le développement de modèles entièrement ouverts (FOMs) basés sur des données synthétiques dans des contextes à faibles ressources et fixe un précédent reproductible pour les futures recherches sur les LLM multilingues.
English
This work presents the first large-scale investigation into constructing a fully open bilingual large language model (LLM) for a non-English language, specifically Korean, trained predominantly on synthetic data. We introduce KORMo-10B, a 10.8B-parameter model trained from scratch on a Korean-English corpus in which 68.74% of the Korean portion is synthetic. Through systematic experimentation, we demonstrate that synthetic data, when carefully curated with balanced linguistic coverage and diverse instruction styles, does not cause instability or degradation during large-scale pretraining. Furthermore, the model achieves performance comparable to that of contemporary open-weight multilingual baselines across a wide range of reasoning, knowledge, and instruction-following benchmarks. Our experiments reveal two key findings: (1) synthetic data can reliably sustain long-horizon pretraining without model collapse, and (2) bilingual instruction tuning enables near-native reasoning and discourse coherence in Korean. By fully releasing all components including data, code, training recipes, and logs, this work establishes a transparent framework for developing synthetic data-driven fully open models (FOMs) in low-resource settings and sets a reproducible precedent for future multilingual LLM research.
PDF692October 13, 2025