Zonnetechnisch Openbaar Rapport
Solar Open Technical Report
January 11, 2026
Auteurs: Sungrae Park, Sanghoon Kim, Jungho Cho, Gyoungjin Gim, Dawoon Jung, Mikyoung Cha, Eunhae Choo, Taekgyu Hong, Minbyul Jeong, SeHwan Joo, Minsoo Khang, Eunwon Kim, Minjeong Kim, Sujeong Kim, Yunsu Kim, Hyeonju Lee, Seunghyun Lee, Sukyung Lee, Siyoung Park, Gyungin Shin, Inseo Song, Wonho Song, Seonghoon Yang, Seungyoun Yi, Sanghoon Yoon, Jeonghyun Ko, Seyoung Song, Keunwoo Choi, Hwalsuk Lee, Sunghun Kim, Du-Seong Chang, Kyunghyun Cho, Junsuk Choe, Hwaran Lee, Jae-Gil Lee, KyungTae Lim, Alice Oh
cs.AI
Samenvatting
Wij introduceren Solar Open, een tweetalig Mixture-of-Experts taalmodel met 102B parameters voor onderbedeelde talen. Solar Open demonstreert een systematische methodologie voor het bouwen van competitieve grote taalmodellen door drie onderling verbonden uitdagingen aan te pakken. Ten eerste synthetiseren we, om effectief te kunnen trainen ondanks de schaarste aan data voor onderbedeelde talen, 4,5T tokens aan hoogwaardige, domeinspecifieke en op reinforcement learning (RL) gerichte data. Ten tweede coördineren we deze data via een progressief curriculum dat de samenstelling, kwaliteitsdrempels en domeindekking gezamenlijk optimaliseert over 20 biljoen tokens. Ten derde passen we, om redeneervaardigheden mogelijk te maken via schaalbare RL, ons voorgestelde framework SnapPO toe voor efficiënte optimalisatie. In benchmarks in het Engels en Koreaas behaalt Solar Open competitieve prestaties, wat de effectiviteit van deze methodologie voor AI-ontwikkeling voor onderbedeelde talen aantoont.
English
We introduce Solar Open, a 102B-parameter bilingual Mixture-of-Experts language model for underserved languages. Solar Open demonstrates a systematic methodology for building competitive LLMs by addressing three interconnected challenges. First, to train effectively despite data scarcity for underserved languages, we synthesize 4.5T tokens of high-quality, domain-specific, and RL-oriented data. Second, we coordinate this data through a progressive curriculum jointly optimizing composition, quality thresholds, and domain coverage across 20 trillion tokens. Third, to enable reasoning capabilities through scalable RL, we apply our proposed framework SnapPO for efficient optimization. Across benchmarks in English and Korean, Solar Open achieves competitive performance, demonstrating the effectiveness of this methodology for underserved language AI development.