ChatPaper.aiChatPaper

KORMo: Modelo Coreano de Raciocínio Aberto para Todos

KORMo: Korean Open Reasoning Model for Everyone

October 10, 2025
Autores: Minjun Kim, Hyeonseok Lim, Hangyeol Yoo, Inho Won, Seungwoo Song, Minkyung Cho, Junhun Yuk, Changsu Choi, Dongjae Shin, Huige Lee, Hoyun Song, Alice Oh, Kyungtae Lim
cs.AI

Resumo

Este trabalho apresenta a primeira investigação em larga escala sobre a construção de um modelo de linguagem grande (LLM) bilíngue totalmente aberto para um idioma não inglês, especificamente o coreano, treinado predominantemente em dados sintéticos. Introduzimos o KORMo-10B, um modelo com 10,8 bilhões de parâmetros treinado do zero em um corpus coreano-inglês, no qual 68,74% da porção em coreano é sintética. Por meio de experimentação sistemática, demonstramos que dados sintéticos, quando cuidadosamente curados com cobertura linguística equilibrada e estilos de instrução diversos, não causam instabilidade ou degradação durante o pré-treinamento em larga escala. Além disso, o modelo alcança desempenho comparável ao de baselines multilíngues contemporâneas de pesos abertos em uma ampla gama de benchmarks de raciocínio, conhecimento e seguimento de instruções. Nossos experimentos revelam duas descobertas principais: (1) dados sintéticos podem sustentar de forma confiável o pré-treinamento de longo horizonte sem colapso do modelo, e (2) o ajuste fino bilíngue com instruções permite raciocínio e coerência discursiva quase nativos em coreano. Ao liberar totalmente todos os componentes, incluindo dados, código, receitas de treinamento e logs, este trabalho estabelece um framework transparente para o desenvolvimento de modelos totalmente abertos (FOMs) impulsionados por dados sintéticos em cenários de baixos recursos e define um precedente reproduzível para futuras pesquisas em LLMs multilíngues.
English
This work presents the first large-scale investigation into constructing a fully open bilingual large language model (LLM) for a non-English language, specifically Korean, trained predominantly on synthetic data. We introduce KORMo-10B, a 10.8B-parameter model trained from scratch on a Korean-English corpus in which 68.74% of the Korean portion is synthetic. Through systematic experimentation, we demonstrate that synthetic data, when carefully curated with balanced linguistic coverage and diverse instruction styles, does not cause instability or degradation during large-scale pretraining. Furthermore, the model achieves performance comparable to that of contemporary open-weight multilingual baselines across a wide range of reasoning, knowledge, and instruction-following benchmarks. Our experiments reveal two key findings: (1) synthetic data can reliably sustain long-horizon pretraining without model collapse, and (2) bilingual instruction tuning enables near-native reasoning and discourse coherence in Korean. By fully releasing all components including data, code, training recipes, and logs, this work establishes a transparent framework for developing synthetic data-driven fully open models (FOMs) in low-resource settings and sets a reproducible precedent for future multilingual LLM research.
PDF692October 13, 2025