ChatPaper.aiChatPaper

KORMo: Modello Coreano di Ragionamento Aperto per Tutti

KORMo: Korean Open Reasoning Model for Everyone

October 10, 2025
Autori: Minjun Kim, Hyeonseok Lim, Hangyeol Yoo, Inho Won, Seungwoo Song, Minkyung Cho, Junhun Yuk, Changsu Choi, Dongjae Shin, Huige Lee, Hoyun Song, Alice Oh, Kyungtae Lim
cs.AI

Abstract

Questo lavoro presenta la prima indagine su larga scala per la costruzione di un modello linguistico di grandi dimensioni (LLM) bilingue completamente aperto per una lingua non inglese, nello specifico il coreano, addestrato prevalentemente su dati sintetici. Introduciamo KORMo-10B, un modello da 10,8 miliardi di parametri addestrato da zero su un corpus coreano-inglese in cui il 68,74% della porzione coreana è sintetica. Attraverso una sperimentazione sistematica, dimostriamo che i dati sintetici, quando accuratamente curati con una copertura linguistica bilanciata e stili di istruzione diversificati, non causano instabilità o degrado durante il pre-addestramento su larga scala. Inoltre, il modello raggiunge prestazioni comparabili a quelle dei benchmark multilingue open-weight contemporanei in un'ampia gamma di test di ragionamento, conoscenza e seguimento delle istruzioni. I nostri esperimenti rivelano due risultati chiave: (1) i dati sintetici possono sostenere in modo affidabile il pre-addestramento a lungo termine senza collasso del modello, e (2) il tuning bilingue delle istruzioni consente un ragionamento quasi nativo e una coerenza discorsiva in coreano. Rilasciando completamente tutti i componenti, inclusi dati, codice, ricette di addestramento e log, questo lavoro stabilisce un framework trasparente per lo sviluppo di modelli completamente aperti (FOM) guidati da dati sintetici in contesti a bassa risorsa e fissa un precedente riproducibile per la futura ricerca sugli LLM multilingue.
English
This work presents the first large-scale investigation into constructing a fully open bilingual large language model (LLM) for a non-English language, specifically Korean, trained predominantly on synthetic data. We introduce KORMo-10B, a 10.8B-parameter model trained from scratch on a Korean-English corpus in which 68.74% of the Korean portion is synthetic. Through systematic experimentation, we demonstrate that synthetic data, when carefully curated with balanced linguistic coverage and diverse instruction styles, does not cause instability or degradation during large-scale pretraining. Furthermore, the model achieves performance comparable to that of contemporary open-weight multilingual baselines across a wide range of reasoning, knowledge, and instruction-following benchmarks. Our experiments reveal two key findings: (1) synthetic data can reliably sustain long-horizon pretraining without model collapse, and (2) bilingual instruction tuning enables near-native reasoning and discourse coherence in Korean. By fully releasing all components including data, code, training recipes, and logs, this work establishes a transparent framework for developing synthetic data-driven fully open models (FOMs) in low-resource settings and sets a reproducible precedent for future multilingual LLM research.
PDF692October 13, 2025