Solar Open Technischer Bericht
Solar Open Technical Report
January 11, 2026
papers.authors: Sungrae Park, Sanghoon Kim, Jungho Cho, Gyoungjin Gim, Dawoon Jung, Mikyoung Cha, Eunhae Choo, Taekgyu Hong, Minbyul Jeong, SeHwan Joo, Minsoo Khang, Eunwon Kim, Minjeong Kim, Sujeong Kim, Yunsu Kim, Hyeonju Lee, Seunghyun Lee, Sukyung Lee, Siyoung Park, Gyungin Shin, Inseo Song, Wonho Song, Seonghoon Yang, Seungyoun Yi, Sanghoon Yoon, Jeonghyun Ko, Seyoung Song, Keunwoo Choi, Hwalsuk Lee, Sunghun Kim, Du-Seong Chang, Kyunghyun Cho, Junsuk Choe, Hwaran Lee, Jae-Gil Lee, KyungTae Lim, Alice Oh
cs.AI
papers.abstract
Wir stellen Solar Open vor, ein zweisprachiges Mixture-of-Experts-Sprachmodell mit 102 Milliarden Parametern für unterversorgte Sprachen. Solar Open demonstriert eine systematische Methodik zur Entwicklung wettbewerbsfähiger LLMs durch die Bewältigung von drei miteinander verbundenen Herausforderungen. Erstens synthetisieren wir 4,5 Billionen Tokens hochwertiger, domänenspezifischer und RL-orientierter Daten, um trotz Datenknappheit für unterversorgte Sprachen effektiv trainieren zu können. Zweitens orchestrieren wir diese Daten durch einen progressiven Lehrplan, der Zusammensetzung, Qualitätsschwellenwerte und Domänenabdeckung über 20 Billionen Tokens hinweg gemeinsam optimiert. Drittens wenden wir unseren vorgeschlagenen SnapPO-Framework für effiziente Optimierung an, um Reasoning-Fähigkeiten durch skalierbares Reinforcement Learning zu ermöglichen. In Benchmarks für Englisch und Koreanisch erzielt Solar Open wettbewerbsfähige Leistungen und unterstreicht die Wirksamkeit dieser Methodik für die KI-Entwicklung in unterversorgten Sprachen.
English
We introduce Solar Open, a 102B-parameter bilingual Mixture-of-Experts language model for underserved languages. Solar Open demonstrates a systematic methodology for building competitive LLMs by addressing three interconnected challenges. First, to train effectively despite data scarcity for underserved languages, we synthesize 4.5T tokens of high-quality, domain-specific, and RL-oriented data. Second, we coordinate this data through a progressive curriculum jointly optimizing composition, quality thresholds, and domain coverage across 20 trillion tokens. Third, to enable reasoning capabilities through scalable RL, we apply our proposed framework SnapPO for efficient optimization. Across benchmarks in English and Korean, Solar Open achieves competitive performance, demonstrating the effectiveness of this methodology for underserved language AI development.