ChatPaper.aiChatPaper

KORMo: Modelo Coreano de Razonamiento Abierto para Todos

KORMo: Korean Open Reasoning Model for Everyone

October 10, 2025
Autores: Minjun Kim, Hyeonseok Lim, Hangyeol Yoo, Inho Won, Seungwoo Song, Minkyung Cho, Junhun Yuk, Changsu Choi, Dongjae Shin, Huige Lee, Hoyun Song, Alice Oh, Kyungtae Lim
cs.AI

Resumen

Este trabajo presenta la primera investigación a gran escala sobre la construcción de un modelo de lenguaje grande (LLM) bilingüe completamente abierto para un idioma no inglés, específicamente el coreano, entrenado predominantemente con datos sintéticos. Introducimos KORMo-10B, un modelo de 10.8 mil millones de parámetros entrenado desde cero en un corpus coreano-inglés en el que el 68.74% de la porción en coreano es sintética. A través de experimentación sistemática, demostramos que los datos sintéticos, cuando se curan cuidadosamente con una cobertura lingüística equilibrada y estilos de instrucción diversos, no causan inestabilidad o degradación durante el preentrenamiento a gran escala. Además, el modelo logra un rendimiento comparable al de los modelos multilingües de referencia de peso abierto contemporáneos en una amplia gama de pruebas de razonamiento, conocimiento y seguimiento de instrucciones. Nuestros experimentos revelan dos hallazgos clave: (1) los datos sintéticos pueden sostener de manera confiable el preentrenamiento a largo plazo sin colapso del modelo, y (2) el ajuste bilingüe de instrucciones permite un razonamiento y coherencia discursiva casi nativos en coreano. Al liberar completamente todos los componentes, incluidos datos, código, recetas de entrenamiento y registros, este trabajo establece un marco transparente para el desarrollo de modelos completamente abiertos (FOMs) impulsados por datos sintéticos en entornos de bajos recursos y sienta un precedente reproducible para futuras investigaciones en LLM multilingües.
English
This work presents the first large-scale investigation into constructing a fully open bilingual large language model (LLM) for a non-English language, specifically Korean, trained predominantly on synthetic data. We introduce KORMo-10B, a 10.8B-parameter model trained from scratch on a Korean-English corpus in which 68.74% of the Korean portion is synthetic. Through systematic experimentation, we demonstrate that synthetic data, when carefully curated with balanced linguistic coverage and diverse instruction styles, does not cause instability or degradation during large-scale pretraining. Furthermore, the model achieves performance comparable to that of contemporary open-weight multilingual baselines across a wide range of reasoning, knowledge, and instruction-following benchmarks. Our experiments reveal two key findings: (1) synthetic data can reliably sustain long-horizon pretraining without model collapse, and (2) bilingual instruction tuning enables near-native reasoning and discourse coherence in Korean. By fully releasing all components including data, code, training recipes, and logs, this work establishes a transparent framework for developing synthetic data-driven fully open models (FOMs) in low-resource settings and sets a reproducible precedent for future multilingual LLM research.
PDF692October 13, 2025