KORMo: Корейская открытая модель рассуждений для всех
KORMo: Korean Open Reasoning Model for Everyone
October 10, 2025
Авторы: Minjun Kim, Hyeonseok Lim, Hangyeol Yoo, Inho Won, Seungwoo Song, Minkyung Cho, Junhun Yuk, Changsu Choi, Dongjae Shin, Huige Lee, Hoyun Song, Alice Oh, Kyungtae Lim
cs.AI
Аннотация
В данной работе представлено первое масштабное исследование по созданию полностью открытой двуязычной модели большого языка (LLM) для неанглийского языка, а именно корейского, обученной преимущественно на синтетических данных. Мы представляем KORMo-10B — модель с 10,8 миллиардами параметров, обученную с нуля на корпусе корейско-английских текстов, в котором 68,74% корейской части являются синтетическими. Благодаря систематическим экспериментам мы демонстрируем, что синтетические данные, тщательно отобранные с учетом сбалансированного лингвистического охвата и разнообразия стилей инструкций, не вызывают нестабильности или ухудшения качества в ходе масштабного предварительного обучения. Более того, модель демонстрирует производительность, сопоставимую с современными открытыми многоязычными базовыми моделями, на широком спектре тестов, оценивающих способности к рассуждению, знанию и следованию инструкциям. Наши эксперименты выявили два ключевых результата: (1) синтетические данные могут надежно поддерживать долгосрочное предварительное обучение без коллапса модели, и (2) двуязычная настройка на инструкции позволяет достичь близкого к родному уровня рассуждений и связности дискурса на корейском языке. Полностью опубликовав все компоненты, включая данные, код, рецепты обучения и логи, данная работа устанавливает прозрачную основу для разработки полностью открытых моделей (FOMs), основанных на синтетических данных, в условиях ограниченных ресурсов и задает воспроизводимый прецедент для будущих исследований многоязычных LLM.
English
This work presents the first large-scale investigation into constructing a
fully open bilingual large language model (LLM) for a non-English language,
specifically Korean, trained predominantly on synthetic data. We introduce
KORMo-10B, a 10.8B-parameter model trained from scratch on a Korean-English
corpus in which 68.74% of the Korean portion is synthetic. Through systematic
experimentation, we demonstrate that synthetic data, when carefully curated
with balanced linguistic coverage and diverse instruction styles, does not
cause instability or degradation during large-scale pretraining. Furthermore,
the model achieves performance comparable to that of contemporary open-weight
multilingual baselines across a wide range of reasoning, knowledge, and
instruction-following benchmarks. Our experiments reveal two key findings: (1)
synthetic data can reliably sustain long-horizon pretraining without model
collapse, and (2) bilingual instruction tuning enables near-native reasoning
and discourse coherence in Korean. By fully releasing all components including
data, code, training recipes, and logs, this work establishes a transparent
framework for developing synthetic data-driven fully open models (FOMs) in
low-resource settings and sets a reproducible precedent for future multilingual
LLM research.