KORMo: 모두를 위한 한국어 오픈 추론 모델
KORMo: Korean Open Reasoning Model for Everyone
October 10, 2025
저자: Minjun Kim, Hyeonseok Lim, Hangyeol Yoo, Inho Won, Seungwoo Song, Minkyung Cho, Junhun Yuk, Changsu Choi, Dongjae Shin, Huige Lee, Hoyun Song, Alice Oh, Kyungtae Lim
cs.AI
초록
본 연구는 비영어권 언어, 특히 한국어를 대상으로 주로 합성 데이터를 사용하여 완전히 오픈된 양국어 대규모 언어 모델(LLM)을 구축한 첫 번째 대규모 연구를 소개합니다. 우리는 한국어-영어 코퍼스에서 처음부터 학습된 10.8B 파라미터 모델인 KORMo-10B를 제안하며, 이 모델의 한국어 데이터 중 68.74%가 합성 데이터로 구성되었습니다. 체계적인 실험을 통해, 언어적 범위가 균형 잡히고 다양한 명령 스타일로 신중하게 선별된 합성 데이터는 대규모 사전 학습 중 불안정성이나 성능 저하를 유발하지 않음을 입증했습니다. 더 나아가, 이 모델은 추론, 지식, 명령 수행 등 다양한 벤치마크에서 현대의 오픈 가중치 다국어 기준 모델과 비슷한 성능을 달성했습니다. 우리의 실험은 두 가지 주요 발견을 보여줍니다: (1) 합성 데이터는 모델 붕괴 없이 장기간의 사전 학습을 안정적으로 유지할 수 있으며, (2) 양국어 명령 튜닝은 한국어에서 거의 원어민 수준의 추론과 담화 일관성을 가능하게 합니다. 데이터, 코드, 학습 레시피, 로그를 포함한 모든 구성 요소를 완전히 공개함으로써, 본 연구는 저자원 환경에서 합성 데이터 기반의 완전히 오픈된 모델(FOM)을 개발하기 위한 투명한 프레임워크를 확립하고, 향후 다국어 LLM 연구에 재현 가능한 선례를 제시합니다.
English
This work presents the first large-scale investigation into constructing a
fully open bilingual large language model (LLM) for a non-English language,
specifically Korean, trained predominantly on synthetic data. We introduce
KORMo-10B, a 10.8B-parameter model trained from scratch on a Korean-English
corpus in which 68.74% of the Korean portion is synthetic. Through systematic
experimentation, we demonstrate that synthetic data, when carefully curated
with balanced linguistic coverage and diverse instruction styles, does not
cause instability or degradation during large-scale pretraining. Furthermore,
the model achieves performance comparable to that of contemporary open-weight
multilingual baselines across a wide range of reasoning, knowledge, and
instruction-following benchmarks. Our experiments reveal two key findings: (1)
synthetic data can reliably sustain long-horizon pretraining without model
collapse, and (2) bilingual instruction tuning enables near-native reasoning
and discourse coherence in Korean. By fully releasing all components including
data, code, training recipes, and logs, this work establishes a transparent
framework for developing synthetic data-driven fully open models (FOMs) in
low-resource settings and sets a reproducible precedent for future multilingual
LLM research.